romiras · October 4, 2024 23:08 · romiras · Oct 4, 2024
diff --git a/youtube_transcript_to_md.py b/youtube_transcript_to_md.py
 """
 Parses JSON response from https://www.youtube.com/youtubei/v1/get_transcript
 and converts to Markdown document
 """

 import json
 import sys

 def get_segments(data):
    return data['actions'][0]['updateEngagementPanelAction']['content']['transcriptRenderer']['content']['transcriptSearchPanelRenderer']['body']['transcriptSegmentListRenderer']['initialSegments']

 def extract_transcript_segments(segments):
    if len(segments) == 0: return

    # Loop through subsequent content items and yield them
    for segment in segments:
        if 'transcriptSectionHeaderRenderer' in segment:
            text = segment['transcriptSectionHeaderRenderer']['sectionHeader']['sectionHeaderViewModel']['headline']['content']
            yield f"\n\n## {text}\n\n"

        if 'transcriptSegmentRenderer' in segment:
            for run in segment['transcriptSegmentRenderer']['snippet']['runs']:
                text = run['text']
                yield text.strip()

 def main():
    # Read input JSON from stdin
    input_json = sys.stdin.read()
    data = json.loads(input_json)

    segments = get_segments(data)

    # Process the JSON and concatenate the transcript segments
    concatenated_string = ' '.join(extract_transcript_segments(segments))

    # Write the output to stdout
    sys.stdout.write(concatenated_string + '\n')

 if __name__ == "__main__":
    main()
	"""
	Parses JSON response from https://www.youtube.com/youtubei/v1/get_transcript
	and converts to Markdown document
	"""

	import json
	import sys

	def get_segments(data):
	return data['actions'][0]['updateEngagementPanelAction']['content']['transcriptRenderer']['content']['transcriptSearchPanelRenderer']['body']['transcriptSegmentListRenderer']['initialSegments']

	def extract_transcript_segments(segments):
	if len(segments) == 0: return

	# Loop through subsequent content items and yield them
	for segment in segments:
	if 'transcriptSectionHeaderRenderer' in segment:
	text = segment['transcriptSectionHeaderRenderer']['sectionHeader']['sectionHeaderViewModel']['headline']['content']
	yield f"\n\n## {text}\n\n"

	if 'transcriptSegmentRenderer' in segment:
	for run in segment['transcriptSegmentRenderer']['snippet']['runs']:
	text = run['text']
	yield text.strip()

	def main():
	# Read input JSON from stdin
	input_json = sys.stdin.read()
	data = json.loads(input_json)

	segments = get_segments(data)

	# Process the JSON and concatenate the transcript segments
	concatenated_string = ' '.join(extract_transcript_segments(segments))

	# Write the output to stdout
	sys.stdout.write(concatenated_string + '\n')

	if __name__ == "__main__":
	main()