kordless · August 18, 2021 18:43
diff --git a/README.md b/README.md
diff --git a/javascript_indexing_pipeline_stage.js b/javascript_indexing_pipeline_stage.js
 function(doc){
  var File = java.io.File;
  var Iterator = java.util.Iterator;
  var Jsoup = org.jsoup.Jsoup;
  var Document = org.jsoup.nodes.Document;
  var Element =  org.jsoup.nodes.Element;
  var Elements = org.jsoup.select.Elements;

  var content = doc.getFirstFieldValue("body");
  var jdoc = org.jsoup.nodes.Document;
  var e = java.lang.Exception;
  var div = org.jsoup.nodes.Element;
  
  var img = org.jsoup.nodes.Element;
  var iter = java.util.Iterator;
  var divs = org.jsoup.select.Elements;

  try {
    jdoc = Jsoup.parse(content);
    divs = jdoc.select("div");
    iter = divs.iterator();
    div = null; // initialize our value to null

    while (iter.hasNext()) {
      div = iter.next();
      if (div.attr("id").equals("bottom")) {
        // found the containing div of img
        break; // break out to there
      }
    }
    // break out to here to add field for img src
    if (div != null) {
      img = div.child(0); // get the image element
      logger.info("SRC: " + img.attr("src")); // log the image URL
      doc.addField("image_url", img.attr("src"));
    } else {
      logger.warn("div was null");
    }
  } catch ( e) {
    logger.warn("something went wrong");
    logger.error(e);
  }
  return doc;
 }
diff --git a/request_entity_indexing_pipeline.json b/request_entity_indexing_pipeline.json
 {
    "requests": [{
       "image":{
           "source":{
               "imageUri":
               "${image_url_s}"
           }
       },
       "features": [
          { "type": "TEXT_DETECTION", "maxResults": 50 }
       ]
    }]
 }
	function(doc){
	var File = java.io.File;
	var Iterator = java.util.Iterator;
	var Jsoup = org.jsoup.Jsoup;
	var Document = org.jsoup.nodes.Document;
	var Element = org.jsoup.nodes.Element;
	var Elements = org.jsoup.select.Elements;

	var content = doc.getFirstFieldValue("body");
	var jdoc = org.jsoup.nodes.Document;
	var e = java.lang.Exception;
	var div = org.jsoup.nodes.Element;

	var img = org.jsoup.nodes.Element;
	var iter = java.util.Iterator;
	var divs = org.jsoup.select.Elements;

	try {
	jdoc = Jsoup.parse(content);
	divs = jdoc.select("div");
	iter = divs.iterator();
	div = null; // initialize our value to null

	while (iter.hasNext()) {
	div = iter.next();
	if (div.attr("id").equals("bottom")) {
	// found the containing div of img
	break; // break out to there
	}
	}
	// break out to here to add field for img src
	if (div != null) {
	img = div.child(0); // get the image element
	logger.info("SRC: " + img.attr("src")); // log the image URL
	doc.addField("image_url", img.attr("src"));
	} else {
	logger.warn("div was null");
	}
	} catch ( e) {
	logger.warn("something went wrong");
	logger.error(e);
	}
	return doc;
	}
	{
	"requests": [{
	"image":{
	"source":{
	"imageUri":
	"${image_url_s}"
	}
	},
	"features": [
	{ "type": "TEXT_DETECTION", "maxResults": 50 }
	]
	}]
	}