andreasvc · May 8, 2019 12:18
diff --git a/corenlpxmltoconll2012.py b/corenlpxmltoconll2012.py
 """Convert XML output of Stanford CoreNLP to CoNLL 2012 format.

 $ ./corenlp.sh -annotators tokenize,ssplit,pos,lemma,ner,parse,dcoref \
 		-output.printSingletonEntities true \
 		-file /tmp/example.txt
 $ python3 corenlpxmltoconll2012.py example.txt.xml > example.conll`
 """
 import re
 import sys
 from lxml import etree


 def gettext(node):
 	"""Safely read text of lxml node."""
 	return '-' if node is None else node.text


 def splitparse(parse):
 	"""Split PTB parse tree into parse bits."""
 	parse = parse.replace('\n', ' ')
 	result = re.sub(r'\([^\s()]+ [^\s()]+\)([^(]*)', r'*\1\n', parse)
 	return result.replace(' ', '').splitlines()


 def nerspans(tokens):
 	"""Create NER spans in CoNLL 2012 format from token-based NER labels.

 	Single token names: ['(PERSON)']; Multiword names: ['(ORG*', '*', '*)']
 	Will not create nested NER spans such as (University of (California))."""
 	result = ['*'] * len(tokens)
 	nerlabels = [gettext(token.find('./NER')) for token in tokens]
 	for n, ner in enumerate(nerlabels):
 		if ner == '-' or ner == 'O':
 			continue
 		elif n == 0 or nerlabels[n - 1] != ner:
 			if n == len(tokens) - 1 or nerlabels[n + 1] != ner:
 				result[n] = '(%s)' % ner
 			else:
 				result[n] = '(%s*' % ner
 		elif n == len(tokens) - 1 or nerlabels[n + 1] != ner:
 			result[n] = '*)'
 	return result


 def conv(filename):
 	"""Read CoreNLP XML file and print in CoNLL 2012 format on stdout."""
 	doc = etree.parse(filename).getroot().find('./document')
 	docid = doc.find('./docId').text
 	partid = 0
 	result = []
 	for sent in doc.find('./sentences'):
 		parsebits = splitparse(sent.find('./parse').text)
 		nerbits = nerspans(sent.find('./tokens'))
 		result.append([
 					[docid,
 					str(partid),
 					token.get('id', '-'),
 					gettext(token.find('./word')),
 					gettext(token.find('./POS')),
 					parsebits[n],
 					'-',  # predicate lemma
 					'-',  # predicate frameset ID
 					'-',  # word sense
 					gettext(token.find('./Speaker')),
 					nerbits[n],
 					'']  # coref chain
 				for n, token in enumerate(sent.find('./tokens'))])

 	for clusterid, coref in enumerate(doc.find('./coreference')):
 		for mention in coref:
 			sentid = int(mention.find('./sentence').text) - 1
 			start = int(mention.find('./start').text) - 1
 			end = int(mention.find('./end').text) - 1
 			if start == end - 1:
 				result[sentid][start][-1] += '(' + str(clusterid) + ')|'
 			else:
 				result[sentid][start][-1] += '(' + str(clusterid) + '|'
 				result[sentid][end - 1][-1] += str(clusterid) + ')|'

 	print('#begin document (%s); part %03d' % (docid, partid))
 	for chunk in result:
 		for line in chunk:
 			line[-1] = line[-1].rstrip('|') or '-'
 			print('\t'.join(line))
 		print()
 	print('#end document')


 if __name__ == '__main__':
 	conv(sys.argv[1])
	"""Convert XML output of Stanford CoreNLP to CoNLL 2012 format.

	$ ./corenlp.sh -annotators tokenize,ssplit,pos,lemma,ner,parse,dcoref \
	-output.printSingletonEntities true \
	-file /tmp/example.txt
	$ python3 corenlpxmltoconll2012.py example.txt.xml > example.conll`
	"""
	import re
	import sys
	from lxml import etree


	def gettext(node):
	"""Safely read text of lxml node."""
	return '-' if node is None else node.text


	def splitparse(parse):
	"""Split PTB parse tree into parse bits."""
	parse = parse.replace('\n', ' ')
	result = re.sub(r'\([^\s()]+ [^\s()]+\)([^(])', r'\1\n', parse)
	return result.replace(' ', '').splitlines()


	def nerspans(tokens):
	"""Create NER spans in CoNLL 2012 format from token-based NER labels.

	Single token names: ['(PERSON)']; Multiword names: ['(ORG', '', '*)']
	Will not create nested NER spans such as (University of (California))."""
	result = [''] len(tokens)
	nerlabels = [gettext(token.find('./NER')) for token in tokens]
	for n, ner in enumerate(nerlabels):
	if ner == '-' or ner == 'O':
	continue
	elif n == 0 or nerlabels[n - 1] != ner:
	if n == len(tokens) - 1 or nerlabels[n + 1] != ner:
	result[n] = '(%s)' % ner
	else:
	result[n] = '(%s*' % ner
	elif n == len(tokens) - 1 or nerlabels[n + 1] != ner:
	result[n] = '*)'
	return result


	def conv(filename):
	"""Read CoreNLP XML file and print in CoNLL 2012 format on stdout."""
	doc = etree.parse(filename).getroot().find('./document')
	docid = doc.find('./docId').text
	partid = 0
	result = []
	for sent in doc.find('./sentences'):
	parsebits = splitparse(sent.find('./parse').text)
	nerbits = nerspans(sent.find('./tokens'))
	result.append([
	[docid,
	str(partid),
	token.get('id', '-'),
	gettext(token.find('./word')),
	gettext(token.find('./POS')),
	parsebits[n],
	'-', # predicate lemma
	'-', # predicate frameset ID
	'-', # word sense
	gettext(token.find('./Speaker')),
	nerbits[n],
	''] # coref chain
	for n, token in enumerate(sent.find('./tokens'))])

	for clusterid, coref in enumerate(doc.find('./coreference')):
	for mention in coref:
	sentid = int(mention.find('./sentence').text) - 1
	start = int(mention.find('./start').text) - 1
	end = int(mention.find('./end').text) - 1
	if start == end - 1:
	result[sentid][start][-1] += '(' + str(clusterid) + ')\|'
	else:
	result[sentid][start][-1] += '(' + str(clusterid) + '\|'
	result[sentid][end - 1][-1] += str(clusterid) + ')\|'

	print('#begin document (%s); part %03d' % (docid, partid))
	for chunk in result:
	for line in chunk:
	line[-1] = line[-1].rstrip('\|') or '-'
	print('\t'.join(line))
	print()
	print('#end document')


	if __name__ == '__main__':
	conv(sys.argv[1])