lukestanley · February 14, 2024 00:31
diff --git a/extract_chatgpt_conversations.py b/extract_chatgpt_conversations.py
 def extract_messages(file_path="conversations.json", conversation_limit=None, message_limit=None):
    with open(file_path, "r") as file:
        data = json.load(file)

    extracted_conversations = []
    conv_titles = []

    # Use the specified limits or the entire data length if no limit is specified
    conversation_count = conversation_limit if conversation_limit else len(data)

    # Iterate over conversations within the specified limit
    for conversation in data[:conversation_count]:
        title = conversation.get("title", "")
        conv_titles.append(title)
        extracted_messages = []
        message_count = 0

        for message_id, message_info in conversation["mapping"].items():
            if (
                message_limit and message_count >= message_limit
            ):  # Apply message limit if specified
                break
            if message_info["message"]:  # Ensure there's a message
                content = message_info["message"]["content"]
                if (
                    "parts" in content and content["parts"]
                ):  # Ensure there are parts with content
                    message_string = content["parts"][0]
                    role = message_info["message"]["author"]["role"]
                    if len(message_string) > 0:
                        extracted_messages.append(
                            {"role": role, "message": message_string}
                        )
                        message_count += 1

        extracted_conversations.append(extracted_messages)

    return extracted_conversations, conv_titles
	def extract_messages(file_path="conversations.json", conversation_limit=None, message_limit=None):
	with open(file_path, "r") as file:
	data = json.load(file)

	extracted_conversations = []
	conv_titles = []

	# Use the specified limits or the entire data length if no limit is specified
	conversation_count = conversation_limit if conversation_limit else len(data)

	# Iterate over conversations within the specified limit
	for conversation in data[:conversation_count]:
	title = conversation.get("title", "")
	conv_titles.append(title)
	extracted_messages = []
	message_count = 0

	for message_id, message_info in conversation["mapping"].items():
	if (
	message_limit and message_count >= message_limit
	): # Apply message limit if specified
	break
	if message_info["message"]: # Ensure there's a message
	content = message_info["message"]["content"]
	if (
	"parts" in content and content["parts"]
	): # Ensure there are parts with content
	message_string = content["parts"][0]
	role = message_info["message"]["author"]["role"]
	if len(message_string) > 0:
	extracted_messages.append(
	{"role": role, "message": message_string}
	)
	message_count += 1

	extracted_conversations.append(extracted_messages)

	return extracted_conversations, conv_titles