cyrillbolliger · October 6, 2020 13:29
diff --git a/wp_remove_gutenberg_tags.py b/wp_remove_gutenberg_tags.py
 ### usage: python3 wp_remove_gutenberg_tags.py < wordpress-export-with-tags.xml > cleand.xml

 import fileinput
 import re

 data = ''
 m_start = 0
 m_stop = 0

 for line in fileinput.input():
    data += line

 cdata_regex = re.compile('<content:encoded><!\[CDATA\[(.*?)]]></content:encoded>', re.DOTALL)
 p_regex = re.compile('<!-- wp:paragraph -->\s*<p>\s*(?P<paragraph>.*?)\s*</p>\s*<!-- /wp:paragraph -->', re.DOTALL)
 comment_regex = re.compile('<!--.*?-->')
 newlines_regex = re.compile('\n+')


 def clean(cdata):
    """
    Strip block editor tags, remove multiple empty lines

    :param cdata: string
    :return: string
    """
    clean = p_regex.sub('\g<paragraph>', cdata)
    clean = comment_regex.sub('', clean)
    clean = newlines_regex.sub('\n', clean)
    return clean


 for match in cdata_regex.finditer(data):
    print(data[m_stop:match.start()])
    print(clean(match.group(0)))

    m_start = match.start()
    m_stop = match.end()

 print(data[m_stop:len(data)])
	### usage: python3 wp_remove_gutenberg_tags.py < wordpress-export-with-tags.xml > cleand.xml

	import fileinput
	import re

	data = ''
	m_start = 0
	m_stop = 0

	for line in fileinput.input():
	data += line

	cdata_regex = re.compile('<content:encoded><!\[CDATA\[(.*?)]]></content:encoded>', re.DOTALL)
	p_regex = re.compile('<!-- wp:paragraph -->\s<p>\s(?P<paragraph>.?)\s</p>\s*<!-- /wp:paragraph -->', re.DOTALL)
	comment_regex = re.compile('<!--.*?-->')
	newlines_regex = re.compile('\n+')


	def clean(cdata):
	"""
	Strip block editor tags, remove multiple empty lines

	:param cdata: string
	:return: string
	"""
	clean = p_regex.sub('\g<paragraph>', cdata)
	clean = comment_regex.sub('', clean)
	clean = newlines_regex.sub('\n', clean)
	return clean


	for match in cdata_regex.finditer(data):
	print(data[m_stop:match.start()])
	print(clean(match.group(0)))

	m_start = match.start()
	m_stop = match.end()

	print(data[m_stop:len(data)])