Context Navigation

SolrDocJSON.java@ 31786

Last change on this file since 31786 was 31786, checked in by davidb, 7 years ago
extra param in call; change to case-folding _htrctokentext
Property svn:executable set to ``*
File size: 25.5 KB

Rev	Line
[31007]	1	package org.hathitrust.extractedfeatures;
	2
	3	import java.io.BufferedReader;
	4	import java.io.BufferedWriter;
	5	import java.io.IOException;
[31499]	6	import java.io.InputStream;
[31007]	7	import java.io.InputStreamReader;
	8	import java.io.OutputStream;
[31243]	9	import java.io.Reader;
	10	import java.io.StringReader;
[31007]	11	import java.net.HttpURLConnection;
	12	import java.net.URL;
[31176]	13	import java.util.ArrayList;
[31375]	14	import java.util.HashMap;
[31007]	15	import java.util.Iterator;
[31375]	16	import java.util.Set;
	17
[31007]	18	import org.apache.commons.compress.compressors.CompressorException;
[31260]	19	import org.json.JSONArray;
[31007]	20	import org.json.JSONObject;
[31509]	21
	22	import scala.Tuple2;
	23
[31244]	24	import org.apache.lucene.analysis.TokenStream;
[31243]	25	import org.apache.lucene.analysis.Tokenizer;
	26	import org.apache.lucene.analysis.icu.segmentation.ICUTokenizer;
[31273]	27	import org.apache.lucene.analysis.standard.StandardTokenizer;
[31243]	28	import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
[31254]	29	import org.apache.lucene.analysis.core.LowerCaseFilter;
[31007]	30
	31	public class SolrDocJSON {
	32
[31783]	33	protected static String [] metadata_single = new String[] {
	34	"accessProfile",
	35	"bibliographicFormat",
	36	"dateCreated", // date
	37	//"enumerationChronology", // What is this?
	38	//"governmentDocument", // bool: true/false
	39	"handleUrl",
	40	"hathitrustRecordNumber", // int?
	41	"htBibUrl",
	42	"imprint",
	43	"issuance",
	44	"language",
	45	"lastUpdateDate",
	46	"pubDate",
	47	"pubPlace",
	48	"rightsAttributes",
	49	"schemaVersion",
	50	"sourceInstitution",
	51	"sourceInstitutionRecordNumber",
	52	"title",
	53	"typeOfResource",
	54	"volumeIdentifier"
	55	};
	56
	57	protected static String [] metadata_multiple = new String[] {
	58	"oclc",
	59	"isbn",
	60	"issn",
	61	"lccn",
	62	"genre",
	63	"names"
	64	};
	65
	66	protected static String [] metadata_hashmap_multiple = new String[] {
	67	"classification"
	68	};
	69
	70	protected static JSONObject generateMetadataSolrDocJSON(String id, JSONObject ef_metadata, boolean is_page_level)
[31505]	71	{
[31675]	72	/*
	73	Example JSON for id: "gri.ark:/13960/t0003qw46
	74	metadata: {
	75
	76	"accessProfile": "open",
	77	"bibliographicFormat": "BK",
	78	"classification": {
	79	"lcc": [
	80	"ND646 .B8 1900"
	81	]
	82	},
	83	"dateCreated": "2016-06-19T08:30:16.11199Z",
	84	"enumerationChronology": " ",
	85	"genre": [
	86	"not fiction"
	87	],
	88	"governmentDocument": false,
	89	"handleUrl": "http://hdl.handle.net/2027/gri.ark:/13960/t0003qw46",
	90	"hathitrustRecordNumber": "100789562",
	91	"htBibUrl": "http://catalog.hathitrust.org/api/volumes/full/htid/gri.ark:/13960/t0003qw46.json",
	92	"imprint": "Burlington Fine Arts Club, 1900.",
	93	"isbn": [],
	94	"issn": [],
	95	"issuance": "monographic",
	96	"language": "eng",
	97	"lastUpdateDate": "2015-09-14 13:25:03",
	98	"lccn": [],
	99	"names": [
	100	"Burlington Fine Arts Club "
	101	],
	102	"oclc": [
	103	"25259734"
	104	],
	105	"pubDate": "1900",
	106	"pubPlace": "enk",
	107	"rightsAttributes": "pd",
	108	"schemaVersion": "1.3",
	109	"sourceInstitution": "CMALG",
	110	"sourceInstitutionRecordNumber": "9928077890001551",
	111	"title": "Exhibition of pictures by Dutch masters of the seventeenth century.",
	112	"typeOfResource": "text",
	113	"volumeIdentifier": "gri.ark:/13960/t0003qw46"
	114
	115	}
	116
	117	*/
[31505]	118
	119
[31783]	120	// For JSON Solr format see:
	121	// https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Index+Handlers
[31505]	122
[31783]	123	//String title= ef_metadata.getString("title");
	124
	125	JSONObject solr_doc_json = new JSONObject();
	126	solr_doc_json.put("id", id);
	127
	128	for (String metaname: metadata_single) {
	129	String metavalue = ef_metadata.getString(metaname);
[31505]	130
[31783]	131	if (metavalue != null) {
	132	if (is_page_level) {
	133	solr_doc_json.put("volume"+metaname+"_txt",metavalue);
	134	solr_doc_json.put("volume"+metaname+"_htrcstring",metavalue);
	135	}
	136	else {
[31505]	137	solr_doc_json.put(metaname+"_t",metavalue);
[31597]	138	solr_doc_json.put(metaname+"_s",metavalue);
[31505]	139	}
	140	}
[31783]	141	}
	142
	143	for (String metaname: metadata_multiple) {
	144	JSONArray metavalues = ef_metadata.getJSONArray(metaname);
	145	if (metavalues != null) {
	146	if (is_page_level) {
	147	solr_doc_json.put("volume"+metaname+"_txt",metavalues);
	148	solr_doc_json.put("volume"+metaname+"_htrcstrings",metavalues);
	149	}
	150	else {
[31505]	151	solr_doc_json.put(metaname+"_t",metavalues);
[31597]	152	solr_doc_json.put(metaname+"_ss",metavalues);
[31505]	153	}
	154	}
[31783]	155	}
	156
	157	for (String metaname: metadata_hashmap_multiple) {
	158	JSONObject metakeys = ef_metadata.getJSONObject(metaname);
	159
	160	if (metakeys != null) {
[31675]	161
[31783]	162	Iterator<String> metakey_iter = metakeys.keys();
	163	while (metakey_iter.hasNext()) {
	164	String metakey = metakey_iter.next();
	165
	166	JSONArray metavalues = metakeys.getJSONArray(metakey);
	167	if (metavalues != null) {
	168	String combined_metaname = metaname + "_" + metakey;
	169	if (is_page_level) {
	170	solr_doc_json.put("volume"+combined_metaname+"_txt",metavalues);
	171	solr_doc_json.put("volume"+combined_metaname+"_htrcstrings",metavalues);
	172	}
	173	else {
[31675]	174	solr_doc_json.put(combined_metaname+"_t",metavalues);
	175	solr_doc_json.put(combined_metaname+"_ss",metavalues);
[31783]	176	}
	177	}
[31675]	178	}
	179	}
[31783]	180	}
	181
	182	return solr_doc_json;
	183
	184	}
	185
	186	protected static JSONObject generateToplevelMetadataSolrDocJSON(String volume_id, JSONObject ef_metadata)
	187	{
	188	JSONObject solr_update_json = null;
	189
	190	if (ef_metadata != null) {
[31675]	191
[31783]	192	// For JSON Solr format see:
	193	// https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Index+Handlers
	194
	195	//String title= ef_metadata.getString("title");
	196	JSONObject solr_add_json = new JSONObject();
	197
	198	JSONObject solr_doc_json = generateMetadataSolrDocJSON(volume_id,ef_metadata,false);
	199
[31597]	200	solr_add_json.put("commitWithin", 60000); // used to be 5000
[31505]	201	solr_add_json.put("doc", solr_doc_json);
	202
	203	solr_update_json = new JSONObject();
	204	solr_update_json.put("add",solr_add_json);
	205
	206	}
	207	else {
	208	System.err.println("Warning: null metadata for '" + volume_id + "'");
	209	}
	210
	211	return solr_update_json;
	212	}
	213
	214
[31273]	215
[31783]	216
	217
[31252]	218	protected static ArrayList<String> getTokenPosCountWords(JSONObject ef_token_pos_count, String page_id,
	219	boolean icu_tokenize)
[31245]	220	{
[31254]	221	boolean lowercase_filter = true;
[31243]	222
[31245]	223	ArrayList<String> words = new ArrayList<String>();
	224
	225	if (ef_token_pos_count != null) {
	226
[31258]	227	Iterator<String> word_token_iter = ef_token_pos_count.keys();
	228	while (word_token_iter.hasNext()) {
	229	String word_token = word_token_iter.next();
[31245]	230
[31308]	231	if (icu_tokenize) {
[31258]	232	Reader reader = new StringReader(word_token);
[31243]	233
[31254]	234	ICUTokenizer icu_tokenizer = new ICUTokenizer();
	235	icu_tokenizer.setReader(reader);
[31243]	236
[31254]	237	CharTermAttribute charTermAttribute = icu_tokenizer.addAttribute(CharTermAttribute.class);
[31243]	238
[31254]	239	TokenStream token_stream = null;
	240
	241	if (lowercase_filter) {
	242	token_stream = new LowerCaseFilter(icu_tokenizer);
	243	}
	244	else {
	245	token_stream = icu_tokenizer;
	246	}
	247
[31243]	248	try {
[31254]	249	token_stream.reset();
[31243]	250
[31254]	251	while (token_stream.incrementToken()) {
[31243]	252	String term = charTermAttribute.toString();
[31245]	253	words.add(term);
[31243]	254	}
	255
[31254]	256	token_stream.end();
	257	token_stream.close();
[31243]	258	}
	259	catch (IOException e) {
	260	e.printStackTrace();
	261	}
	262	}
	263	else {
[31258]	264	words.add(word_token);
[31243]	265	}
[31245]	266	}
	267	}
	268	else {
	269	System.err.println("Warning: empty tokenPosCount field for '" + page_id + "'");
	270	}
	271
	272	/* Alternative way to get at keys
	273	Set<String> token_keys = ef_token_pos_count.keySet();
	274	for (String token : token_keys) {
	275	sb.append(token + " ");
	276	}
	277	*/
	278	return words;
	279	}
	280
[31375]	281	protected static ArrayList<POSString> getTokenPosCountWordsArrayList(JSONObject ef_token_pos_count, String page_id,
[31273]	282	boolean icu_tokenize)
	283	{
[31375]	284	ArrayList<POSString> words = new ArrayList<POSString>();
[31273]	285
	286	if (ef_token_pos_count != null) {
	287
	288	Iterator<String> word_token_iter = ef_token_pos_count.keys();
	289	while (word_token_iter.hasNext()) {
	290	String word_token = word_token_iter.next();
	291
[31375]	292	JSONObject pos_json_object = ef_token_pos_count.getJSONObject(word_token);
[31378]	293
[31375]	294	Set<String> pos_keys = pos_json_object.keySet();
	295	int pos_keys_len = pos_keys.size();
	296	String[] pos_tags = (pos_keys_len>0) ? pos_keys.toArray(new String[pos_keys_len]) : null;
	297
[31273]	298	if (icu_tokenize == true) {
	299	Reader reader = new StringReader(word_token);
	300
	301	ICUTokenizer icu_tokenizer = new ICUTokenizer();
	302	icu_tokenizer.setReader(reader);
	303
	304	CharTermAttribute charTermAttribute = icu_tokenizer.addAttribute(CharTermAttribute.class);
	305
	306	TokenStream token_stream = icu_tokenizer;
	307
	308	try {
	309	token_stream.reset();
	310
	311	while (token_stream.incrementToken()) {
	312	String term = charTermAttribute.toString();
[31375]	313
	314	POSString pos_string = new POSString(term,pos_tags);
	315
	316	words.add(pos_string);
[31273]	317	}
	318
	319	token_stream.end();
	320	token_stream.close();
	321	}
	322	catch (IOException e) {
	323	e.printStackTrace();
	324	}
	325	}
	326	else {
[31375]	327	POSString pos_word_token = new POSString(word_token,pos_tags);
	328
	329	words.add(pos_word_token);
[31273]	330	}
	331	}
	332	}
	333	else {
	334	System.err.println("Warning: empty tokenPosCount field for '" + page_id + "'");
	335	}
	336
	337	return words;
	338	}
[31375]	339	protected static ArrayList<POSString> getTokenPosCountWordsMapCaseInsensitive(ArrayList<POSString> words_in)
[31273]	340	{
[31375]	341	ArrayList<POSString> words_out = new ArrayList<POSString>();
[31273]	342
[31375]	343	for (POSString pos_word: words_in) {
	344	String word = pos_word.getString();
	345	String[] pos_tags = pos_word.getPOSTags();
[31273]	346
	347	Reader reader = new StringReader(word);
	348
	349	Tokenizer tokenizer = new StandardTokenizer();
	350	tokenizer.setReader(reader);
	351	CharTermAttribute charTermAttribute = tokenizer.addAttribute(CharTermAttribute.class);
	352
	353	TokenStream token_stream = new LowerCaseFilter(tokenizer);
	354
	355	try {
	356	token_stream.reset();
	357
	358	while (token_stream.incrementToken()) {
	359	String term = charTermAttribute.toString();
[31375]	360
	361	POSString pos_term = new POSString(term,pos_tags);
	362	words_out.add(pos_term);
[31273]	363	}
	364
	365	token_stream.end();
	366	token_stream.close();
	367	}
	368	catch (IOException e) {
	369	e.printStackTrace();
	370	}
	371
	372	}
	373
	374	return words_out;
	375	}
	376
[31779]	377	protected static ArrayList<String> lowerCaseTerms(String word)
	378	{
	379	ArrayList<String> words_out = new ArrayList<String>();
	380
	381	Reader reader = new StringReader(word);
	382
	383	Tokenizer tokenizer = new StandardTokenizer();
	384	tokenizer.setReader(reader);
	385	CharTermAttribute charTermAttribute = tokenizer.addAttribute(CharTermAttribute.class);
	386
	387	TokenStream token_stream = new LowerCaseFilter(tokenizer);
	388
	389	try {
	390	token_stream.reset();
	391
	392	while (token_stream.incrementToken()) {
	393	String term = charTermAttribute.toString();
	394
	395	words_out.add(term);
	396	}
	397
	398	token_stream.end();
	399	token_stream.close();
	400	}
	401	catch (IOException e) {
	402	e.printStackTrace();
	403	}
	404
	405	return words_out;
	406	}
	407
[31375]	408	protected static ArrayList<POSString> getTokenPosCountWordsMapWhitelist(ArrayList<POSString> words_in,
[31273]	409	WhitelistBloomFilter whitelist_bloomfilter)
	410	{
[31779]	411	ArrayList<POSString> pos_words_out = new ArrayList<POSString>();
[31273]	412
[31375]	413	for (POSString pos_word: words_in) {
	414	String word = pos_word.getString();
[31779]	415	String[] pos_tags = pos_word.getPOSTags();
	416
[31273]	417	if (whitelist_bloomfilter.contains(word)) {
[31779]	418
	419	ArrayList<String> word_terms = lowerCaseTerms(word);
	420	for (String term: word_terms) {
	421	POSString pos_term = new POSString(term, pos_tags);
	422
	423	pos_words_out.add(pos_term);
	424	}
	425
	426	// The old, direct way of adding the value in
	427	//pos_words_out.add(pos_word);
[31273]	428	}
[31779]	429	else {
	430	// else clause won't happen so often
	431	// (has to be an 'obscure' word not be in the whitelist to get here)
	432	// break down the word into terms, and see if any of them are in the whitelist instead
	433
	434	ArrayList<String> word_terms = lowerCaseTerms(word);
	435	for (String term: word_terms) {
	436
	437	if (whitelist_bloomfilter.contains(term)) {
	438	POSString pos_term = new POSString(term, pos_tags);
	439
	440	pos_words_out.add(pos_term);
	441	}
	442	}
	443
	444
	445	}
[31273]	446	}
	447
[31779]	448	return pos_words_out;
[31273]	449	}
	450
[31258]	451	protected static ArrayList<String> getTokenPosCountPOSLabels(JSONObject ef_token_pos_count, String page_id)
	452	{
	453	ArrayList<String> pos_labels = new ArrayList<String>();
	454
	455	if (ef_token_pos_count != null) {
	456
	457	Iterator<String> word_token_iter = ef_token_pos_count.keys();
	458	while (word_token_iter.hasNext()) {
	459	String word_token = word_token_iter.next();
	460
	461	JSONObject word_pos_labels = ef_token_pos_count.getJSONObject(word_token);
	462
	463	Iterator<String> pos_token_iter = word_pos_labels.keys();
	464	while (pos_token_iter.hasNext()) {
	465	String pos_token = pos_token_iter.next();
	466
	467	pos_labels.add(pos_token);
	468	}
	469	}
	470	}
	471	else {
	472	System.err.println("Warning: empty tokenPosCount field for '" + page_id + "'");
	473	}
	474
	475	return pos_labels;
	476	}
	477
[31245]	478
[31258]	479
[31245]	480	protected static String generateSolrText(JSONObject ef_token_pos_count, String page_id,
[31252]	481	WhitelistBloomFilter whitelist_bloomfilter, boolean icu_tokenize)
[31245]	482	{
[31252]	483	ArrayList<String> tokens = getTokenPosCountWords(ef_token_pos_count, page_id,icu_tokenize);
[31245]	484
	485	StringBuilder sb = new StringBuilder();
[31273]	486
[31245]	487	if (whitelist_bloomfilter == null) {
	488
	489	boolean first_append = true;
	490
	491	for (int i=0; i<tokens.size(); i++) {
	492	String token = tokens.get(i);
	493
	494	if (!first_append) {
	495	sb.append(" ");
	496	}
	497	else {
	498	first_append = false;
	499	}
	500	sb.append(token);
[31243]	501	}
[31245]	502	}
	503	else {
	504	boolean first_append = true;
[31220]	505
[31245]	506	for (int i=0; i<tokens.size(); i++) {
	507	String token = tokens.get(i);
	508
	509	if (whitelist_bloomfilter.contains(token)) {
[31243]	510	if (!first_append) {
[31220]	511	sb.append(" ");
	512	}
[31243]	513	else {
	514	first_append = false;
	515	}
	516	sb.append(token);
[31245]	517	}
[31007]	518	}
[31245]	519
[31007]	520	}
	521
[31245]	522
	523	return sb.toString();
	524	}
[31273]	525
[31375]	526	protected static ArrayList<POSString> filterSolrTextFields(JSONObject ef_token_pos_count, String page_id,
	527	WhitelistBloomFilter whitelist_bloomfilter,
	528	UniversalPOSLangMap universal_langmap,
	529	boolean icu_tokenize)
[31273]	530	{
[31375]	531	ArrayList<POSString> cs_tokens = getTokenPosCountWordsArrayList(ef_token_pos_count, page_id,icu_tokenize);
[31779]	532	//ArrayList<POSString> lc_tokens = getTokenPosCountWordsMapCaseInsensitive(cs_tokens);
[31273]	533
[31375]	534	ArrayList<POSString> tokens = null;
[31273]	535	if (whitelist_bloomfilter != null) {
[31779]	536	tokens = getTokenPosCountWordsMapWhitelist(cs_tokens,whitelist_bloomfilter);
	537	//tokens = getTokenPosCountWordsMapWhitelist(lc_tokens,whitelist_bloomfilter);
[31273]	538	}
	539	else {
[31779]	540	ArrayList<POSString> lc_tokens = getTokenPosCountWordsMapCaseInsensitive(cs_tokens);
[31273]	541	tokens = lc_tokens;
	542	}
[31245]	543
[31273]	544	return tokens;
	545	}
	546
[31375]	547	protected static void addSolrLanguageTextFields(JSONObject ef_page, ArrayList<POSString> text_al,
	548	UniversalPOSLangMap universal_langmap,
[31273]	549	JSONObject solr_doc_json)
	550	{
	551	// e.g. ... "languages":[{"ko":"0.71"},{"ja":"0.29"}]
	552	JSONArray ef_languages = ef_page.getJSONArray("languages");
[31510]	553	if ((ef_languages != null) && (ef_languages.length()>0)) {
[31273]	554
	555	int lang_len = ef_languages.length();
	556	String [] lang_list = new String[lang_len];
	557
	558	for (int i=0; i<lang_len; i++) {
	559	JSONObject lang_rec = ef_languages.getJSONObject(i);
	560
	561	Iterator<String> lang_key_iter = lang_rec.keys();
	562	while (lang_key_iter.hasNext()) {
	563	String lang_label = lang_key_iter.next();
	564
[31375]	565	lang_list[i] = lang_label;
[31273]	566	}
	567	}
	568
	569	int text_len = text_al.size();
[31274]	570
[31509]	571	/*
[31274]	572	for (int li=0; li<lang_len; li++) {
[31375]	573	String lang_key = lang_list[li];
	574
	575	if (universal_langmap.containsLanguage(lang_key))
	576	{
[31509]	577	*/
[31375]	578	HashMap<String,JSONArray> pos_lang_text_field_map = new HashMap<String,JSONArray>();
	579
	580	for (int ti=0; ti<text_len; ti++) {
	581	POSString pos_text_value = text_al.get(ti);
	582	String text_value = pos_text_value.getString();
	583
	584	String[] pos_tags = pos_text_value.getPOSTags();
	585	int pos_tags_len = pos_tags.length;
	586
[31378]	587	for (int pti=0; pti<pos_tags_len; pti++) {
[31375]	588	String opennlp_pos_key = pos_tags[pti];
	589
[31509]	590	Tuple2<String,String> lang_pos_pair = universal_langmap.getUniversalLanguagePOSPair(lang_list, opennlp_pos_key);
	591	String selected_lang = lang_pos_pair._1;
	592	String upos = lang_pos_pair._2;
[31375]	593
[31509]	594	String pos_lang_text_field = selected_lang;
	595	if (upos != null) {
	596	pos_lang_text_field += "_" + upos;
	597	}
[31786]	598	pos_lang_text_field += "_htrctokentext";
[31509]	599
[31375]	600	if (!pos_lang_text_field_map.containsKey(pos_lang_text_field)) {
	601	JSONArray empty_json_values = new JSONArray();
	602	pos_lang_text_field_map.put(pos_lang_text_field, empty_json_values);
	603	}
	604	pos_lang_text_field_map.get(pos_lang_text_field).put(text_value);
	605	}
	606	}
	607
	608	// Now add each of the POS language fields into solr_doc_json
	609	Set<String> pos_lang_field_keys = pos_lang_text_field_map.keySet();
	610	for (String plf_key : pos_lang_field_keys) {
	611	String lang_text_field = plf_key;
	612	JSONArray json_values = pos_lang_text_field_map.get(plf_key);
	613
	614	solr_doc_json.put(lang_text_field, json_values);
	615	}
[31509]	616	/*
[31273]	617	}
[31375]	618	else {
[31786]	619	String lang_text_field = lang_key + "_htrctokentext";
[31375]	620
	621	JSONArray json_values = new JSONArray();
	622	for (int ti=0; ti<text_len; ti++) {
	623	POSString pos_text_value = text_al.get(ti);
	624	String text_value = pos_text_value.getString();
	625	json_values.put(text_value);
	626	}
	627	solr_doc_json.put(lang_text_field, json_values);
	628
	629	}
	630
	631
[31273]	632	}
[31509]	633	*/
[31273]	634	}
	635	}
[31505]	636
[31783]	637	protected static JSONObject generateSolrDocJSON(String volume_id, String page_id,
	638	JSONObject ef_metadata, JSONObject ef_page,
[31375]	639	WhitelistBloomFilter whitelist_bloomfilter,
	640	UniversalPOSLangMap universal_langmap,
	641	boolean icu_tokenize)
[31007]	642	{
	643	JSONObject solr_update_json = null;
	644
	645	if (ef_page != null) {
	646	JSONObject ef_body = ef_page.getJSONObject("body");
	647	if (ef_body != null) {
	648	JSONObject ef_token_pos_count = ef_body.getJSONObject("tokenPosCount");
	649	if (ef_token_pos_count != null) {
	650
	651	JSONObject solr_add_json = new JSONObject();
[31783]	652
[31375]	653	ArrayList<POSString> text_al = filterSolrTextFields(ef_token_pos_count,page_id,whitelist_bloomfilter,universal_langmap,icu_tokenize);
[31007]	654
[31783]	655	//JSONObject solr_doc_json = new JSONObject();
	656	JSONObject solr_doc_json = generateMetadataSolrDocJSON(page_id,ef_metadata,true);
	657
	658	//solr_doc_json.put("id", page_id); // now done in generateMetadataSolrDocJSON
[31007]	659	solr_doc_json.put("volumeid_s", volume_id);
[31783]	660
[31273]	661	if (text_al.size()>0) {
[31375]	662	addSolrLanguageTextFields(ef_page,text_al, universal_langmap, solr_doc_json);
[31273]	663	//solr_doc_json.put("eftext_txt", text_al.toString()); // ****
[31220]	664	}
	665	else {
	666	solr_doc_json.put("efnotext_b", true);
	667	}
[31783]	668	solr_add_json.put("commitWithin", 60000); // used to be 5000
[31007]	669	solr_add_json.put("doc", solr_doc_json);
	670
	671	solr_update_json = new JSONObject();
	672	solr_update_json.put("add",solr_add_json);
	673
	674	}
	675	else {
	676	System.err.println("Warning: empty tokenPosCount field for '" + page_id + "'");
	677	}
	678	}
	679	else {
	680	System.err.println("Warning: empty body field for '" + page_id + "'");
	681	}
	682
	683	}
	684	else {
	685	System.err.println("Warning: null page for '" + page_id + "'");
	686	}
	687
	688
	689	/*
	690
	691	/update/json/docs
	692	*/
	693
	694	// For Reference ...
	695	// Example documentation on Solr JSON syntax:
	696	// https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Index+Handlers
	697	// #UploadingDatawithIndexHandlers-JSONFormattedIndexUpdates
	698
	699	/*
	700	curl -X POST -H 'Content-Type: application/json' 'http://localhost:8983/solr/my_collection/update' --data-binary '
	701	{
	702	"add": {
	703	"doc": {
	704	"id": "DOC1",
	705	"my_boosted_field": { use a map with boost/value for a boosted field
	706	"boost": 2.3,
	707	"value": "test"
	708	},
	709	"my_multivalued_field": [ "aaa", "bbb" ] Can use an array for a multi-valued field
	710	}
	711	},
	712	"add": {
	713	"commitWithin": 5000, commit this document within 5 seconds
	714	"overwrite": false, don't check for existing documents with the same uniqueKey
	715	"boost": 3.45, a document boost
	716	"doc": {
	717	"f1": "v1", Can use repeated keys for a multi-valued field
	718	"f1": "v2"
	719	}
	720	},
	721
	722	"commit": {},
	723	"optimize": { "waitSearcher":false },
	724
	725	"delete": { "id":"ID" }, delete by ID
	726	"delete": { "query":"QUERY" } delete by query
	727	}'
	728	*/
	729
	730	return solr_update_json;
	731	}
	732
[31273]	733	public static ArrayList<String> generateTokenPosCountWhitelistText(String volume_id, String page_id, JSONObject ef_page,
[31258]	734	boolean icu_tokenize)
[31176]	735	{
[31245]	736	ArrayList<String> word_list = null;
[31176]	737
	738	if (ef_page != null) {
	739	JSONObject ef_body = ef_page.getJSONObject("body");
	740	if (ef_body != null) {
	741	JSONObject ef_token_pos_count = ef_body.getJSONObject("tokenPosCount");
[31252]	742	word_list = getTokenPosCountWords(ef_token_pos_count,page_id,icu_tokenize);
[31176]	743	}
	744	else {
	745	System.err.println("Warning: empty body field for '" + page_id + "'");
	746	}
	747
	748	}
	749	else {
	750	System.err.println("Warning: null page for '" + page_id + "'");
	751	}
	752
	753	return word_list;
	754	}
	755
[31258]	756	public static ArrayList<String> generateTokenPosCountPOSLabels(String volume_id, String page_id, JSONObject ef_page)
	757	{
	758	ArrayList<String> word_list = null;
	759
	760	if (ef_page != null) {
	761	JSONObject ef_body = ef_page.getJSONObject("body");
	762	if (ef_body != null) {
	763	JSONObject ef_token_pos_count = ef_body.getJSONObject("tokenPosCount");
	764	word_list = getTokenPosCountPOSLabels(ef_token_pos_count,page_id);
	765	}
	766	else {
	767	System.err.println("Warning: empty body field for '" + page_id + "'");
	768	}
	769
	770	}
	771	else {
	772	System.err.println("Warning: null page for '" + page_id + "'");
	773	}
	774
	775	return word_list;
	776	}
	777
[31260]	778	public static ArrayList<String> generateTokenPosCountLangLabels(String volume_id, String page_id, JSONObject ef_page)
	779	{
	780	ArrayList<String> lang_list = new ArrayList<String>();;
	781
	782	if (ef_page != null) {
	783	JSONArray ef_languages = ef_page.getJSONArray("languages");
	784	if (ef_languages != null) {
	785
	786	int lang_len = ef_languages.length();
	787	for (int i=0; i<lang_len; i++) {
	788	JSONObject lang_rec = ef_languages.getJSONObject(i);
	789
	790	Iterator<String> lang_key_iter = lang_rec.keys();
	791	while (lang_key_iter.hasNext()) {
	792	String lang_label = lang_key_iter.next();
	793
	794	lang_list.add(lang_label);
	795	}
	796	}
	797	}
	798	else {
	799	System.err.println("Warning: empty languages field for '" + page_id + "'");
	800	}
	801
	802	}
	803	else {
	804	System.err.println("Warning: null page for '" + page_id + "'");
	805	}
	806
	807	return lang_list;
	808	}
	809
[31007]	810	public static void saveSolrDoc(JSONObject solr_add_doc_json, String output_file_json_bz2)
	811	{
	812	try {
	813	BufferedWriter bw = ClusterFileIO.getBufferedWriterForCompressedFile(output_file_json_bz2);
	814	bw.write(solr_add_doc_json.toString());
	815	bw.close();
	816	} catch (IOException e) {
	817	e.printStackTrace();
	818	} catch (CompressorException e) {
	819	e.printStackTrace();
	820	}
	821	}
	822
[31499]	823	public static void postSolrDoc(String post_url, JSONObject solr_add_doc_json,
	824	String volume_id, String page_id)
[31007]	825	{
	826
	827	//String curl_popen = "curl -X POST -H 'Content-Type: application/json'";
	828	//curl_popen += " 'http://10.11.0.53:8983/solr/htrc-pd-ef/update'";
	829	//curl_popen += " --data-binary '";
	830	//curl_popen += "'"
	831
	832
[31499]	833	// System.out.println("Post URL: " + post_url);
[31375]	834
[31007]	835	try {
	836	HttpURLConnection httpcon = (HttpURLConnection) ((new URL(post_url).openConnection()));
	837	httpcon.setDoOutput(true);
	838	httpcon.setRequestProperty("Content-Type", "application/json");
	839	httpcon.setRequestProperty("Accept", "application/json");
	840	httpcon.setRequestMethod("POST");
	841	httpcon.connect();
	842
	843	byte[] outputBytes = solr_add_doc_json.toString().getBytes("UTF-8");
	844	OutputStream os = httpcon.getOutputStream();
	845	os.write(outputBytes);
	846	os.close();
	847
	848
	849	// Read response
	850	StringBuilder sb = new StringBuilder();
[31499]	851	InputStream is = httpcon.getInputStream();
	852	BufferedReader in = new BufferedReader(new InputStreamReader(is));
[31007]	853	String decodedString;
	854	while ((decodedString = in.readLine()) != null) {
	855	sb.append(decodedString);
	856	}
	857	in.close();
	858
	859	JSONObject solr_status_json = new JSONObject(sb.toString());
	860	JSONObject response_header_json = solr_status_json.getJSONObject("responseHeader");
	861	if (response_header_json != null) {
	862	int status = response_header_json.getInt("status");
	863	if (status != 0) {
	864	System.err.println("Warning: POST request to " + post_url + " returned status " + status);
	865	System.err.println("Full response was: " + sb);
	866	}
	867	}
	868	else {
	869	System.err.println("Failed response to Solr POST: " + sb);
	870	}
	871
	872
	873
	874	}
[31499]	875	catch (IOException e) {
	876	System.err.println("Solr core update failed when processing id: " + volume_id + "." + page_id);
	877	e.printStackTrace();
	878	}
	879
[31007]	880	catch (Exception e) {
	881	e.printStackTrace();
	882	}
	883	}
	884	}

Note: See TracBrowser for help on using the repository browser.

Context Navigation

source: other-projects/hathitrust/wcsa/extracted-features-solr/trunk/solr-ingest/src/main/java/org/hathitrust/extractedfeatures/SolrDocJSON.java@ 31786

Download in other formats: