nhoffman · November 16, 2012 20:54
diff --git a/unclassified.py b/unclassified.py
 #!/usr/bin/env python

 import re
 import sys

 rexp = re.compile(r'|'.join([
            r'\bactinomycete\b',
            r'\bcrenarchaeote\b',
            r'\bculture\b',
            r'\bchimeric\b',
            r'\bcyanobiont\b',
            'degrading',
            r'\beuryarchaeote\b',
            'disease',
            r'\b[cC]lone',
            r'\bmethanogen(ic)?\b',
            'planktonic',
            r'\bplanctomycete\b',
            r'\bsymbiote\b',
            r'\btransconjugant\b',
            r'^[a-z]', # need to look for false positives
            r'^[a-zA-Z]+\s+[a-zA-Z]*\d' # digit in second word
            ]))

 for line in sys.stdin:
    if rexp.search(line.split(None, 3)[-1]):
        sys.stdout.write(line)
	#!/usr/bin/env python

	import re
	import sys

	rexp = re.compile(r'\|'.join([
	r'\bactinomycete\b',
	r'\bcrenarchaeote\b',
	r'\bculture\b',
	r'\bchimeric\b',
	r'\bcyanobiont\b',
	'degrading',
	r'\beuryarchaeote\b',
	'disease',
	r'\b[cC]lone',
	r'\bmethanogen(ic)?\b',
	'planktonic',
	r'\bplanctomycete\b',
	r'\bsymbiote\b',
	r'\btransconjugant\b',
	r'^[a-z]', # need to look for false positives
	r'^[a-zA-Z]+\s+[a-zA-Z]*\d' # digit in second word
	]))

	for line in sys.stdin:
	if rexp.search(line.split(None, 3)[-1]):
	sys.stdout.write(line)