arthursoares · February 21, 2025 16:00
diff --git a/README.MD b/README.MD
diff --git a/video_transcribe.py b/video_transcribe.py
 #!/usr/bin/env python3

 import os
 import subprocess
 import argparse
 import openai
 import requests

 openai.api_key = os.getenv("OPENAI_API_KEY")

 def extract_audio_from_video(video_path, audio_path):
    command = [
        "ffmpeg", "-i", video_path,
        "-vn",  # No video
        "-acodec", "mp3",
        audio_path,
        "-y"
    ]
    subprocess.run(command, check=True)

 def transcribe_audio_whisper(audio_path):
    """
    Transcribe an audio file using OpenAI's Whisper model.
    Uses direct HTTP request call to OpenAI's transcription endpoint.
    """
    url = "https://api.openai.com/v1/audio/transcriptions"
    headers = {
        "Authorization": f"Bearer {openai.api_key}"
    }
    data = {
        "model": "whisper-1"
    }
    with open(audio_path, "rb") as audio_file:
        print("[INFO] Transcribing audio with Whisper...")
        files = {
            "file": audio_file
        }
        response = requests.post(url, headers=headers, data=data, files=files)
    response.raise_for_status()
    result = response.json()
    return result["text"]

 def summarize_transcript(transcript, user_prompt):
    """
    Summarize the transcript via OpenAI's Chat Completion API using a direct HTTP request.
    """
    url = "https://api.openai.com/v1/chat/completions"
    headers = {
        "Authorization": f"Bearer {openai.api_key}",
        "Content-Type": "application/json"
    }
    system_content = "You are a helpful assistant..."
    user_content = (
        f"The transcript of the video is:\n\n{transcript}\n\n"
        f"User prompt: {user_prompt}\n\n"
        "Please summarize or analyze the transcript."
    )
    payload = {
        "model": "gpt-4o-mini",
        "messages": [
            {"role": "system", "content": system_content},
            {"role": "user", "content": user_content},
        ],
        "temperature": 0.7
    }
    response = requests.post(url, headers=headers, json=payload)
    response.raise_for_status()
    result = response.json()
    return result["choices"][0]["message"]["content"]

 def main():
    parser = argparse.ArgumentParser(description="Video Summarizer with OpenAI Whisper + GPT")
    parser.add_argument("video_file", help="Path to the local video file")
    parser.add_argument("--prompt", type=str, default="Please summarize...",
                        help="User-defined prompt to guide the summary.")
    args = parser.parse_args()

    video_file = args.video_file
    user_prompt = args.prompt

    print(f"[INFO] Extracting audio from {video_file}...")
    audio_file = "temp_audio.mp3"
    extract_audio_from_video(video_file, audio_file)
    print(f"[INFO] Audio extracted to {audio_file}")

    transcription_text = transcribe_audio_whisper(audio_file)
    print("[INFO] Transcription complete.")

    summary = summarize_transcript(transcription_text, user_prompt)
    print("[INFO] Summary/Analysis complete.\n")

    print("TRANSCRIPTION:\n", transcription_text)
    print("\n----------------------------------------\n")
    print("SUMMARY / ANALYSIS:\n", summary)

 if __name__ == "__main__":
    main()
	#!/usr/bin/env python3

	import os
	import subprocess
	import argparse
	import openai
	import requests

	openai.api_key = os.getenv("OPENAI_API_KEY")

	def extract_audio_from_video(video_path, audio_path):
	command = [
	"ffmpeg", "-i", video_path,
	"-vn", # No video
	"-acodec", "mp3",
	audio_path,
	"-y"
	]
	subprocess.run(command, check=True)

	def transcribe_audio_whisper(audio_path):
	"""
	Transcribe an audio file using OpenAI's Whisper model.
	Uses direct HTTP request call to OpenAI's transcription endpoint.
	"""
	url = "https://api.openai.com/v1/audio/transcriptions"
	headers = {
	"Authorization": f"Bearer {openai.api_key}"
	}
	data = {
	"model": "whisper-1"
	}
	with open(audio_path, "rb") as audio_file:
	print("[INFO] Transcribing audio with Whisper...")
	files = {
	"file": audio_file
	}
	response = requests.post(url, headers=headers, data=data, files=files)
	response.raise_for_status()
	result = response.json()
	return result["text"]

	def summarize_transcript(transcript, user_prompt):
	"""
	Summarize the transcript via OpenAI's Chat Completion API using a direct HTTP request.
	"""
	url = "https://api.openai.com/v1/chat/completions"
	headers = {
	"Authorization": f"Bearer {openai.api_key}",
	"Content-Type": "application/json"
	}
	system_content = "You are a helpful assistant..."
	user_content = (
	f"The transcript of the video is:\n\n{transcript}\n\n"
	f"User prompt: {user_prompt}\n\n"
	"Please summarize or analyze the transcript."
	)
	payload = {
	"model": "gpt-4o-mini",
	"messages": [
	{"role": "system", "content": system_content},
	{"role": "user", "content": user_content},
	],
	"temperature": 0.7
	}
	response = requests.post(url, headers=headers, json=payload)
	response.raise_for_status()
	result = response.json()
	return result["choices"][0]["message"]["content"]

	def main():
	parser = argparse.ArgumentParser(description="Video Summarizer with OpenAI Whisper + GPT")
	parser.add_argument("video_file", help="Path to the local video file")
	parser.add_argument("--prompt", type=str, default="Please summarize...",
	help="User-defined prompt to guide the summary.")
	args = parser.parse_args()

	video_file = args.video_file
	user_prompt = args.prompt

	print(f"[INFO] Extracting audio from {video_file}...")
	audio_file = "temp_audio.mp3"
	extract_audio_from_video(video_file, audio_file)
	print(f"[INFO] Audio extracted to {audio_file}")

	transcription_text = transcribe_audio_whisper(audio_file)
	print("[INFO] Transcription complete.")

	summary = summarize_transcript(transcription_text, user_prompt)
	print("[INFO] Summary/Analysis complete.\n")

	print("TRANSCRIPTION:\n", transcription_text)
	print("\n----------------------------------------\n")
	print("SUMMARY / ANALYSIS:\n", summary)

	if __name__ == "__main__":
	main()