lucidyan · April 27, 2024 02:41
diff --git a/README.md b/README.md
diff --git a/script.py b/script.py
 import os
 import webvtt
 import re
 import json
 import datetime

 def merge_subtitles(subtitles):
    if not subtitles:
        return ""
    
    merged = subtitles[0]
    for subtitle in subtitles[1:]:
        overlap = next((j for j in range(min(len(merged), len(subtitle)), 0, -1)
                        if merged.endswith(subtitle[:j])), 0)
        merged += subtitle[overlap:]
    return merged

 def clean_text(text):
    return re.sub(r"\s{2,}", " ", text.replace("\n", " "))

 def process_subtitles_from_directory(path):
    content = {}
    for filename in os.listdir(path):
        full_path = os.path.join(path, filename)
        if filename.endswith(".vtt") and os.path.isfile(full_path):
            try:
                captions = [clean_text(caption.text) for caption in webvtt.read(full_path)]
                content[filename.split(" [")[0]] = merge_subtitles(captions).strip()
            except webvtt.MalformedFileError as e:
                print(f"Error processing {filename}: {e}")
    return content

 def save_content_to_file(content, path, filename):
    with open(os.path.join(path, filename), "w") as f:
        for k, v in sorted(content.items()):
            print(f"# {k}", file=f)
            print("", file=f)
            print(v, file=f)
            print("", file=f)

 def main():
    path = ".."
    content = process_subtitles_from_directory(path)
    timestamp = datetime.datetime.now().strftime("%Y-%m-%d-%H-%M-%S")
    output_filename = f'content_{timestamp}.txt'
    save_content_to_file(content, path, output_filename)
    print(f"Processed subtitles saved to {output_filename}")

 if __name__ == "__main__":
    main()
	import os
	import webvtt
	import re
	import json
	import datetime

	def merge_subtitles(subtitles):
	if not subtitles:
	return ""

	merged = subtitles[0]
	for subtitle in subtitles[1:]:
	overlap = next((j for j in range(min(len(merged), len(subtitle)), 0, -1)
	if merged.endswith(subtitle[:j])), 0)
	merged += subtitle[overlap:]
	return merged

	def clean_text(text):
	return re.sub(r"\s{2,}", " ", text.replace("\n", " "))

	def process_subtitles_from_directory(path):
	content = {}
	for filename in os.listdir(path):
	full_path = os.path.join(path, filename)
	if filename.endswith(".vtt") and os.path.isfile(full_path):
	try:
	captions = [clean_text(caption.text) for caption in webvtt.read(full_path)]
	content[filename.split(" [")[0]] = merge_subtitles(captions).strip()
	except webvtt.MalformedFileError as e:
	print(f"Error processing {filename}: {e}")
	return content

	def save_content_to_file(content, path, filename):
	with open(os.path.join(path, filename), "w") as f:
	for k, v in sorted(content.items()):
	print(f"# {k}", file=f)
	print("", file=f)
	print(v, file=f)
	print("", file=f)

	def main():
	path = ".."
	content = process_subtitles_from_directory(path)
	timestamp = datetime.datetime.now().strftime("%Y-%m-%d-%H-%M-%S")
	output_filename = f'content_{timestamp}.txt'
	save_content_to_file(content, path, output_filename)
	print(f"Processed subtitles saved to {output_filename}")

	if __name__ == "__main__":
	main()