Skip to content

Instantly share code, notes, and snippets.

@alicommit-malp
Last active April 4, 2018 15:29
Show Gist options
  • Save alicommit-malp/46b1c5fe735e8f684c6149c164fb1b31 to your computer and use it in GitHub Desktop.
Save alicommit-malp/46b1c5fe735e8f684c6149c164fb1b31 to your computer and use it in GitHub Desktop.
English stop words remover
import java.util.HashSet;
import java.util.Iterator;
public class StopWords {
private static HashSet<String> data =new HashSet<String>();
private static String[] words;
/**
* Remove all the English stop words listed in the data
* @param input
* @return
* @throws Exception
*/
public static String removeStopWords(String input) throws Exception{
words=input.split(" ");
Iterator<String> itr=data.iterator();
while(itr.hasNext()){
String stopWord=itr.next();
for(String word:words){
if(word.equals(stopWord)){
words = (String[]) ArrayUtils.removeElement(words, word);
}
}
}
StringBuilder sb= new StringBuilder();
for(String word:words){
sb.append(word);
sb.append(" ");
}
return sb.toString().trim();
}
static {
data.add("a");
data.add("about");
data.add("above");
data.add("across");
data.add("after");
data.add("afterwards");
data.add("again");
data.add("against");
data.add("all");
data.add("almost");
data.add("alone");
data.add("along");
data.add("already");
data.add("also");
data.add("although");
data.add("always");
data.add("am");
data.add("among");
data.add("amongst");
data.add("amoungst");
data.add("amount");
data.add("an");
data.add("and");
data.add("another");
data.add("any");
data.add("anyhow");
data.add("anyone");
data.add("anything");
data.add("anyway");
data.add("anywhere");
data.add("are");
data.add("around");
data.add("as");
data.add("at");
data.add("back");
data.add("be");
data.add("became");
data.add("because");
data.add("become");
data.add("becomes");
data.add("becoming");
data.add("been");
data.add("before");
data.add("beforehand");
data.add("behind");
data.add("being");
data.add("below");
data.add("beside");
data.add("besides");
data.add("between");
data.add("beyond");
data.add("bill");
data.add("both");
data.add("bottom");
data.add("but");
data.add("by");
data.add("call");
data.add("can");
data.add("cannot");
data.add("cant");
data.add("co");
data.add("computer");
data.add("con");
data.add("could");
data.add("couldnt");
data.add("cry");
data.add("de");
data.add("describe");
data.add("detail");
data.add("do");
data.add("done");
data.add("down");
data.add("due");
data.add("during");
data.add("each");
data.add("eg");
data.add("eight");
data.add("either");
data.add("eleven");
data.add("else");
data.add("elsewhere");
data.add("empty");
data.add("enough");
data.add("etc");
data.add("even");
data.add("ever");
data.add("every");
data.add("everyone");
data.add("everything");
data.add("everywhere");
data.add("except");
data.add("few");
data.add("fifteen");
data.add("fify");
data.add("fill");
data.add("find");
data.add("fire");
data.add("first");
data.add("five");
data.add("for");
data.add("former");
data.add("formerly");
data.add("forty");
data.add("found");
data.add("four");
data.add("from");
data.add("front");
data.add("full");
data.add("further");
data.add("get");
data.add("give");
data.add("go");
data.add("had");
data.add("has");
data.add("hasnt");
data.add("have");
data.add("he");
data.add("hence");
data.add("her");
data.add("here");
data.add("hereafter");
data.add("hereby");
data.add("herein");
data.add("hereupon");
data.add("hers");
data.add("herse'");
data.add("him");
data.add("himse'");
data.add("his");
data.add("how");
data.add("however");
data.add("hundred");
data.add("i");
data.add("ie");
data.add("if");
data.add("in");
data.add("inc");
data.add("indeed");
data.add("interest");
data.add("into");
data.add("is");
data.add("it");
data.add("its");
data.add("itse'");
data.add("keep");
data.add("last");
data.add("latter");
data.add("later");
data.add("latterly");
data.add("least");
data.add("less");
data.add("ltd");
data.add("made");
data.add("many");
data.add("may");
data.add("me");
data.add("meanwhile");
data.add("might");
data.add("mill");
data.add("mine");
data.add("more");
data.add("moreover");
data.add("most");
data.add("mostly");
data.add("move");
data.add("much");
data.add("must");
data.add("my");
data.add("myse'");
data.add("name");
data.add("namely");
data.add("neither");
data.add("never");
data.add("nevertheless");
data.add("next");
data.add("nine");
data.add("no");
data.add("nobody");
data.add("none");
data.add("noone");
data.add("nor");
data.add("not");
data.add("nothing");
data.add("now");
data.add("nowhere");
data.add("of");
data.add("off");
data.add("often");
data.add("on");
data.add("once");
data.add("one");
data.add("only");
data.add("onto");
data.add("or");
data.add("other");
data.add("others");
data.add("otherwise");
data.add("our");
data.add("ours");
data.add("ourselves");
data.add("out");
data.add("over");
data.add("own");
data.add("part");
data.add("per");
data.add("perhaps");
data.add("please");
data.add("put");
data.add("rather");
data.add("re");
data.add("same");
data.add("see");
data.add("seem");
data.add("seemed");
data.add("seeming");
data.add("seems");
data.add("serious");
data.add("several");
data.add("she");
data.add("should");
data.add("show");
data.add("side");
data.add("since");
data.add("sincere");
data.add("six");
data.add("sixty");
data.add("so");
data.add("some");
data.add("somehow");
data.add("someone");
data.add("something");
data.add("sometime");
data.add("sometimes");
data.add("somewhere");
data.add("still");
data.add("such");
data.add("system");
data.add("take");
data.add("ten");
data.add("than");
data.add("that");
data.add("the");
data.add("their");
data.add("them");
data.add("themselves");
data.add("then");
data.add("thence");
data.add("there");
data.add("thereafter");
data.add("thereby");
data.add("therefore");
data.add("therein");
data.add("thereupon");
data.add("these");
data.add("they");
data.add("thick");
data.add("thin");
data.add("third");
data.add("this");
data.add("those");
data.add("though");
data.add("three");
data.add("through");
data.add("throughout");
data.add("thru");
data.add("thus");
data.add("to");
data.add("together");
data.add("too");
data.add("top");
data.add("toward");
data.add("towards");
data.add("twelve");
data.add("twenty");
data.add("two");
data.add("un");
data.add("under");
data.add("until");
data.add("up");
data.add("upon");
data.add("us");
data.add("very");
data.add("via");
data.add("was");
data.add("we");
data.add("well");
data.add("were");
data.add("what");
data.add("whatever");
data.add("when");
data.add("whence");
data.add("whenever");
data.add("where");
data.add("whereafter");
data.add("whereas");
data.add("whereby");
data.add("wherein");
data.add("whereupon");
data.add("wherever");
data.add("whether");
data.add("which");
data.add("while");
data.add("whither");
data.add("who");
data.add("whoever");
data.add("whole");
data.add("whom");
data.add("whose");
data.add("why");
data.add("will");
data.add("with");
data.add("within");
data.add("without");
data.add("would");
data.add("yet");
data.add("you");
data.add("your");
data.add("yours");
data.add("yourself");
data.add("yourselves");
}
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment