Skip to content

Instantly share code, notes, and snippets.

View mocobeta's full-sized avatar

Tomoko Uchida mocobeta

View GitHub Profile
@mocobeta
mocobeta / CustomQueryParser.java
Last active December 18, 2015 05:09
Lucene API カスタム QueryParser サンプル
/**
* 以下は、Apache Softoware Licence v2.0 の元に頒布されているコードに一部改変を加えたものです。
* http://www.apache.org/licenses/LICENSE-2.0.txt
*/
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.PhraseQuery;
import org.apache.lucene.search.Query;
@mocobeta
mocobeta / TumblrDataIndexer .java
Last active December 17, 2015 23:38
Tumblrの投稿をTumblr API経由でLuceneにインデキシングする
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.util.List;
import net.arnx.jsonic.JSON;
import org.apache.http.HttpResponse;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.HttpGet;
@mocobeta
mocobeta / PostedMonthCollector.java
Last active December 17, 2015 23:38
Lucene API カスタムCollector サンプル
/**
* 以下は、Apache Softoware Licence v2.0 の元に頒布されているコードに一部改変を加えたものです。
* http://www.apache.org/licenses/LICENSE-2.0.txt
*/
package extsearch.collector;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
@mocobeta
mocobeta / DistanceComparatorSource.java
Last active December 17, 2015 22:49
Lucene でカスタムソートを実装するサンプル
/**
* 以下は、Apache Softoware Licence v2.0 の元に頒布されているコードに一部改変を加えたものです。
* http://www.apache.org/licenses/LICENSE-2.0.txt
*/
import java.io.IOException;
import org.apache.lucene.index.AtomicReaderContext;
import org.apache.lucene.search.FieldCache;
import org.apache.lucene.search.FieldCache.Ints;
@mocobeta
mocobeta / CalcCosineSimilarityTest.java
Last active October 20, 2018 11:40
Lucene API を使って文書類似度を計算するテスト
package termvector;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import org.apache.lucene.index.DirectoryReader;
@mocobeta
mocobeta / TermVectorTest.java
Created April 28, 2013 11:15
Lucene API で TF-IDF 値を計算するテスト
package termvector;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.List;
import org.apache.lucene.document.Document;
@mocobeta
mocobeta / mongo_access.py
Last active April 27, 2017 07:32
pymongo
import pymongo
import sys
import traceback
from datetime import datetime
import time
MONGO_HOST = 'XXX.XXX.XXX.XXX'
network_timeout = int(sys.argv[1])
repeat = int(sys.argv[2])
sleep = float(sys.argv[3]) if len(sys.argv) > 3 else 1
@mocobeta
mocobeta / BookDateIndexer.java
Last active November 18, 2017 00:39
Lucene in Action Chapter 5 : Sorting Example
package example;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Properties;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.IntField;
@mocobeta
mocobeta / SynonymAnalyzer.java
Last active December 12, 2015 09:49
Lucene カスタム TokenFilter, Analyzer の例 for Lucene 4.1
/**
* 以下は、Apache Softoware Licence v2.0 の元に頒布されているコードに一部改変を加えたものです。
* http://www.apache.org/licenses/LICENSE-2.0.txt
*/
import java.io.IOException;
import java.io.Reader;
import java.util.HashMap;
import java.util.Map;
@mocobeta
mocobeta / QueryTest.java
Last active June 10, 2016 21:57
Lucene 4.1 querying sample
import static org.junit.Assert.*;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Properties;
import org.apache.lucene.analysis.core.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;