Last active
April 4, 2018 15:29
-
-
Save alicommit-malp/46b1c5fe735e8f684c6149c164fb1b31 to your computer and use it in GitHub Desktop.
English stop words remover
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
import java.util.HashSet; | |
import java.util.Iterator; | |
public class StopWords { | |
private static HashSet<String> data =new HashSet<String>(); | |
private static String[] words; | |
/** | |
* Remove all the English stop words listed in the data | |
* @param input | |
* @return | |
* @throws Exception | |
*/ | |
public static String removeStopWords(String input) throws Exception{ | |
words=input.split(" "); | |
Iterator<String> itr=data.iterator(); | |
while(itr.hasNext()){ | |
String stopWord=itr.next(); | |
for(String word:words){ | |
if(word.equals(stopWord)){ | |
words = (String[]) ArrayUtils.removeElement(words, word); | |
} | |
} | |
} | |
StringBuilder sb= new StringBuilder(); | |
for(String word:words){ | |
sb.append(word); | |
sb.append(" "); | |
} | |
return sb.toString().trim(); | |
} | |
static { | |
data.add("a"); | |
data.add("about"); | |
data.add("above"); | |
data.add("across"); | |
data.add("after"); | |
data.add("afterwards"); | |
data.add("again"); | |
data.add("against"); | |
data.add("all"); | |
data.add("almost"); | |
data.add("alone"); | |
data.add("along"); | |
data.add("already"); | |
data.add("also"); | |
data.add("although"); | |
data.add("always"); | |
data.add("am"); | |
data.add("among"); | |
data.add("amongst"); | |
data.add("amoungst"); | |
data.add("amount"); | |
data.add("an"); | |
data.add("and"); | |
data.add("another"); | |
data.add("any"); | |
data.add("anyhow"); | |
data.add("anyone"); | |
data.add("anything"); | |
data.add("anyway"); | |
data.add("anywhere"); | |
data.add("are"); | |
data.add("around"); | |
data.add("as"); | |
data.add("at"); | |
data.add("back"); | |
data.add("be"); | |
data.add("became"); | |
data.add("because"); | |
data.add("become"); | |
data.add("becomes"); | |
data.add("becoming"); | |
data.add("been"); | |
data.add("before"); | |
data.add("beforehand"); | |
data.add("behind"); | |
data.add("being"); | |
data.add("below"); | |
data.add("beside"); | |
data.add("besides"); | |
data.add("between"); | |
data.add("beyond"); | |
data.add("bill"); | |
data.add("both"); | |
data.add("bottom"); | |
data.add("but"); | |
data.add("by"); | |
data.add("call"); | |
data.add("can"); | |
data.add("cannot"); | |
data.add("cant"); | |
data.add("co"); | |
data.add("computer"); | |
data.add("con"); | |
data.add("could"); | |
data.add("couldnt"); | |
data.add("cry"); | |
data.add("de"); | |
data.add("describe"); | |
data.add("detail"); | |
data.add("do"); | |
data.add("done"); | |
data.add("down"); | |
data.add("due"); | |
data.add("during"); | |
data.add("each"); | |
data.add("eg"); | |
data.add("eight"); | |
data.add("either"); | |
data.add("eleven"); | |
data.add("else"); | |
data.add("elsewhere"); | |
data.add("empty"); | |
data.add("enough"); | |
data.add("etc"); | |
data.add("even"); | |
data.add("ever"); | |
data.add("every"); | |
data.add("everyone"); | |
data.add("everything"); | |
data.add("everywhere"); | |
data.add("except"); | |
data.add("few"); | |
data.add("fifteen"); | |
data.add("fify"); | |
data.add("fill"); | |
data.add("find"); | |
data.add("fire"); | |
data.add("first"); | |
data.add("five"); | |
data.add("for"); | |
data.add("former"); | |
data.add("formerly"); | |
data.add("forty"); | |
data.add("found"); | |
data.add("four"); | |
data.add("from"); | |
data.add("front"); | |
data.add("full"); | |
data.add("further"); | |
data.add("get"); | |
data.add("give"); | |
data.add("go"); | |
data.add("had"); | |
data.add("has"); | |
data.add("hasnt"); | |
data.add("have"); | |
data.add("he"); | |
data.add("hence"); | |
data.add("her"); | |
data.add("here"); | |
data.add("hereafter"); | |
data.add("hereby"); | |
data.add("herein"); | |
data.add("hereupon"); | |
data.add("hers"); | |
data.add("herse'"); | |
data.add("him"); | |
data.add("himse'"); | |
data.add("his"); | |
data.add("how"); | |
data.add("however"); | |
data.add("hundred"); | |
data.add("i"); | |
data.add("ie"); | |
data.add("if"); | |
data.add("in"); | |
data.add("inc"); | |
data.add("indeed"); | |
data.add("interest"); | |
data.add("into"); | |
data.add("is"); | |
data.add("it"); | |
data.add("its"); | |
data.add("itse'"); | |
data.add("keep"); | |
data.add("last"); | |
data.add("latter"); | |
data.add("later"); | |
data.add("latterly"); | |
data.add("least"); | |
data.add("less"); | |
data.add("ltd"); | |
data.add("made"); | |
data.add("many"); | |
data.add("may"); | |
data.add("me"); | |
data.add("meanwhile"); | |
data.add("might"); | |
data.add("mill"); | |
data.add("mine"); | |
data.add("more"); | |
data.add("moreover"); | |
data.add("most"); | |
data.add("mostly"); | |
data.add("move"); | |
data.add("much"); | |
data.add("must"); | |
data.add("my"); | |
data.add("myse'"); | |
data.add("name"); | |
data.add("namely"); | |
data.add("neither"); | |
data.add("never"); | |
data.add("nevertheless"); | |
data.add("next"); | |
data.add("nine"); | |
data.add("no"); | |
data.add("nobody"); | |
data.add("none"); | |
data.add("noone"); | |
data.add("nor"); | |
data.add("not"); | |
data.add("nothing"); | |
data.add("now"); | |
data.add("nowhere"); | |
data.add("of"); | |
data.add("off"); | |
data.add("often"); | |
data.add("on"); | |
data.add("once"); | |
data.add("one"); | |
data.add("only"); | |
data.add("onto"); | |
data.add("or"); | |
data.add("other"); | |
data.add("others"); | |
data.add("otherwise"); | |
data.add("our"); | |
data.add("ours"); | |
data.add("ourselves"); | |
data.add("out"); | |
data.add("over"); | |
data.add("own"); | |
data.add("part"); | |
data.add("per"); | |
data.add("perhaps"); | |
data.add("please"); | |
data.add("put"); | |
data.add("rather"); | |
data.add("re"); | |
data.add("same"); | |
data.add("see"); | |
data.add("seem"); | |
data.add("seemed"); | |
data.add("seeming"); | |
data.add("seems"); | |
data.add("serious"); | |
data.add("several"); | |
data.add("she"); | |
data.add("should"); | |
data.add("show"); | |
data.add("side"); | |
data.add("since"); | |
data.add("sincere"); | |
data.add("six"); | |
data.add("sixty"); | |
data.add("so"); | |
data.add("some"); | |
data.add("somehow"); | |
data.add("someone"); | |
data.add("something"); | |
data.add("sometime"); | |
data.add("sometimes"); | |
data.add("somewhere"); | |
data.add("still"); | |
data.add("such"); | |
data.add("system"); | |
data.add("take"); | |
data.add("ten"); | |
data.add("than"); | |
data.add("that"); | |
data.add("the"); | |
data.add("their"); | |
data.add("them"); | |
data.add("themselves"); | |
data.add("then"); | |
data.add("thence"); | |
data.add("there"); | |
data.add("thereafter"); | |
data.add("thereby"); | |
data.add("therefore"); | |
data.add("therein"); | |
data.add("thereupon"); | |
data.add("these"); | |
data.add("they"); | |
data.add("thick"); | |
data.add("thin"); | |
data.add("third"); | |
data.add("this"); | |
data.add("those"); | |
data.add("though"); | |
data.add("three"); | |
data.add("through"); | |
data.add("throughout"); | |
data.add("thru"); | |
data.add("thus"); | |
data.add("to"); | |
data.add("together"); | |
data.add("too"); | |
data.add("top"); | |
data.add("toward"); | |
data.add("towards"); | |
data.add("twelve"); | |
data.add("twenty"); | |
data.add("two"); | |
data.add("un"); | |
data.add("under"); | |
data.add("until"); | |
data.add("up"); | |
data.add("upon"); | |
data.add("us"); | |
data.add("very"); | |
data.add("via"); | |
data.add("was"); | |
data.add("we"); | |
data.add("well"); | |
data.add("were"); | |
data.add("what"); | |
data.add("whatever"); | |
data.add("when"); | |
data.add("whence"); | |
data.add("whenever"); | |
data.add("where"); | |
data.add("whereafter"); | |
data.add("whereas"); | |
data.add("whereby"); | |
data.add("wherein"); | |
data.add("whereupon"); | |
data.add("wherever"); | |
data.add("whether"); | |
data.add("which"); | |
data.add("while"); | |
data.add("whither"); | |
data.add("who"); | |
data.add("whoever"); | |
data.add("whole"); | |
data.add("whom"); | |
data.add("whose"); | |
data.add("why"); | |
data.add("will"); | |
data.add("with"); | |
data.add("within"); | |
data.add("without"); | |
data.add("would"); | |
data.add("yet"); | |
data.add("you"); | |
data.add("your"); | |
data.add("yours"); | |
data.add("yourself"); | |
data.add("yourselves"); | |
} | |
} |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment