jasonbot · May 10, 2023 23:16
diff --git a/to-parquet.py b/to-parquet.py
 import gzip
 import os
 import pathlib

 import warcio.archiveiterator
 from bs4 import BeautifulSoup
 import pandas


 def warc_stream(stream):
    uri: str | None = None
    for record in warcio.archiveiterator.ArchiveIterator(stream):
        uri = record.rec_headers.get("WARC-Target-URI")
        cs = record.content_stream().read()

        try:
            cs = gzip.decompress(cs)
        except:
            pass

        soup = BeautifulSoup(cs, "html.parser")
        try:
            if uri:
                yield {"url": uri, "text": (soup.getText() or "")}
        except Exception as e:
            print(f"    URI {uri} was not an HTML stream: {e}")
        uri = None


 files = pathlib.Path(".").glob("*.warc.gz")
 for filename in files:
    print(filename)
    with open(filename, "rb") as stream:
        df = pandas.DataFrame(data=warc_stream(stream))
        df.to_parquet(os.path.basename(filename) + ".parquet")
	import gzip
	import os
	import pathlib

	import warcio.archiveiterator
	from bs4 import BeautifulSoup
	import pandas


	def warc_stream(stream):
	uri: str \| None = None
	for record in warcio.archiveiterator.ArchiveIterator(stream):
	uri = record.rec_headers.get("WARC-Target-URI")
	cs = record.content_stream().read()

	try:
	cs = gzip.decompress(cs)
	except:
	pass

	soup = BeautifulSoup(cs, "html.parser")
	try:
	if uri:
	yield {"url": uri, "text": (soup.getText() or "")}
	except Exception as e:
	print(f" URI {uri} was not an HTML stream: {e}")
	uri = None


	files = pathlib.Path(".").glob("*.warc.gz")
	for filename in files:
	print(filename)
	with open(filename, "rb") as stream:
	df = pandas.DataFrame(data=warc_stream(stream))
	df.to_parquet(os.path.basename(filename) + ".parquet")