cyberpunk042 · August 16, 2024 22:44
diff --git a/readme.md b/readme.md
diff --git a/ai_scrape_with_parsera.py b/ai_scrape_with_parsera.py
 import os
 import logging
 import argparse
 from parsera import Parsera
 import json
 import time
 from requests.exceptions import RequestException

 # Setup logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)

 def initialize_parsera():
    """
    Initialize the Parsera scraper with the OpenAI model.

    Returns:
        Parsera: The initialized Parsera instance.

    Raises:
        Exception: If Parsera initialization fails.
    """
    try:
        scrapper = Parsera()
        logger.info("Parsera initialized successfully.")
        return scrapper
    except Exception as e:
        logger.error(f"Failed to initialize Parsera: {e}")
        raise

 def parse_elements(elements_input):
    """
    Parse elements input which could be a JSON string or a list of key-value pairs.

    Args:
        elements_input (str or list): JSON string or list of key-value pairs.

    Returns:
        dict: Parsed elements as a dictionary.

    Raises:
        ValueError: If the input is invalid.
    """
    if isinstance(elements_input, str):
        try:
            elements = json.loads(elements_input)
            logger.info("Parsed elements from JSON string.")
        except json.JSONDecodeError:
            # Fallback to key-value parsing if JSON parsing fails
            elements = dict(pair.split("=", 1) for pair in elements_input.split(" "))
            logger.info("Parsed elements from key-value string.")
    else:
        elements = dict(pair.split("=", 1) for pair in elements_input)
        logger.info("Parsed elements from key-value pairs.")
    
    return elements

 def scrape_website(scrapper, url, elements, retries=3, delay=5):
    """
    Scrape the specified elements from the given URL.

    Args:
        scrapper (Parsera): The initialized Parsera instance.
        url (str): The URL to scrape.
        elements (dict): The elements to extract.
        retries (int): Number of retries in case of failure.
        delay (int): Delay in seconds between retries.

    Returns:
        dict: The scraped results.

    Raises:
        Exception: If scraping fails after retries.
    """
    for attempt in range(retries):
        try:
            result = scrapper.run(url=url, elements=elements)
            logger.info(f"Scraping completed successfully for {url}.")
            return result
        except RequestException as e:
            logger.warning(f"Network-related error: {e}. Retrying {attempt + 1}/{retries}...")
            time.sleep(delay)
        except Exception as e:
            logger.error(f"Failed to scrape website on attempt {attempt + 1}: {e}")
            if attempt == retries - 1:
                raise
    raise Exception("Failed to scrape website after multiple retries.")

 def save_results(result, output_file=None):
    """
    Save the scraping results to a file or print to the console.

    Args:
        result (dict): The scraping result to save or print.
        output_file (str): The file path to save the results. If None, results are printed.

    Raises:
        IOError: If saving the file fails.
    """
    if output_file:
        try:
            with open(output_file, 'w') as file:
                json.dump(result, file, indent=4)
            logger.info(f"Results saved to file: {output_file}")
        except IOError as e:
            logger.error(f"Failed to save results to file: {e}")
            raise
    else:
        print(json.dumps(result, indent=4))

 def main(url, elements_input, api_key, output_file=None):
    """
    Main function to orchestrate the web scraping.

    Args:
        url (str): The URL to scrape.
        elements_input (str or list): The elements to extract, as key=value pairs or a JSON string.
        api_key (str): OpenAI API key for the default model.
        output_file (str): Optional file path to save the results.

    Raises:
        ValueError: If the API key is not provided.
    """
    if not api_key:
        raise ValueError("OpenAI API Key is required. Please provide it via --openai_api_key or set the OPENAI_API_KEY environment variable.")

    os.environ["OPENAI_API_KEY"] = api_key
    scrapper = initialize_parsera()
    elements = parse_elements(elements_input)
    result = scrape_website(scrapper, url, elements)
    save_results(result, output_file)

 if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="Scrape a website using Parsera with OpenAI.")
    parser.add_argument("--url", required=True, help="The URL of the website to scrape.")
    parser.add_argument("--elements", required=True, help="Elements to extract as key=value pairs or a JSON string.")
    parser.add_argument("--openai_api_key", help="OpenAI API Key. Can also be set via OPENAI_API_KEY environment variable.")
    parser.add_argument("--output_file", help="Optional file path to save the results.")

    args = parser.parse_args()

    # Retrieve OpenAI API key from arguments or environment variable
    api_key = args.openai_api_key or os.getenv("OPENAI_API_KEY")

    main(
        url=args.url,
        elements_input=args.elements,
        api_key=api_key,
        output_file=args.output_file
    )
	import os
	import logging
	import argparse
	from parsera import Parsera
	import json
	import time
	from requests.exceptions import RequestException

	# Setup logging
	logging.basicConfig(level=logging.INFO)
	logger = logging.getLogger(__name__)

	def initialize_parsera():
	"""
	Initialize the Parsera scraper with the OpenAI model.

	Returns:
	Parsera: The initialized Parsera instance.

	Raises:
	Exception: If Parsera initialization fails.
	"""
	try:
	scrapper = Parsera()
	logger.info("Parsera initialized successfully.")
	return scrapper
	except Exception as e:
	logger.error(f"Failed to initialize Parsera: {e}")
	raise

	def parse_elements(elements_input):
	"""
	Parse elements input which could be a JSON string or a list of key-value pairs.

	Args:
	elements_input (str or list): JSON string or list of key-value pairs.

	Returns:
	dict: Parsed elements as a dictionary.

	Raises:
	ValueError: If the input is invalid.
	"""
	if isinstance(elements_input, str):
	try:
	elements = json.loads(elements_input)
	logger.info("Parsed elements from JSON string.")
	except json.JSONDecodeError:
	# Fallback to key-value parsing if JSON parsing fails
	elements = dict(pair.split("=", 1) for pair in elements_input.split(" "))
	logger.info("Parsed elements from key-value string.")
	else:
	elements = dict(pair.split("=", 1) for pair in elements_input)
	logger.info("Parsed elements from key-value pairs.")

	return elements

	def scrape_website(scrapper, url, elements, retries=3, delay=5):
	"""
	Scrape the specified elements from the given URL.

	Args:
	scrapper (Parsera): The initialized Parsera instance.
	url (str): The URL to scrape.
	elements (dict): The elements to extract.
	retries (int): Number of retries in case of failure.
	delay (int): Delay in seconds between retries.

	Returns:
	dict: The scraped results.

	Raises:
	Exception: If scraping fails after retries.
	"""
	for attempt in range(retries):
	try:
	result = scrapper.run(url=url, elements=elements)
	logger.info(f"Scraping completed successfully for {url}.")
	return result
	except RequestException as e:
	logger.warning(f"Network-related error: {e}. Retrying {attempt + 1}/{retries}...")
	time.sleep(delay)
	except Exception as e:
	logger.error(f"Failed to scrape website on attempt {attempt + 1}: {e}")
	if attempt == retries - 1:
	raise
	raise Exception("Failed to scrape website after multiple retries.")

	def save_results(result, output_file=None):
	"""
	Save the scraping results to a file or print to the console.

	Args:
	result (dict): The scraping result to save or print.
	output_file (str): The file path to save the results. If None, results are printed.

	Raises:
	IOError: If saving the file fails.
	"""
	if output_file:
	try:
	with open(output_file, 'w') as file:
	json.dump(result, file, indent=4)
	logger.info(f"Results saved to file: {output_file}")
	except IOError as e:
	logger.error(f"Failed to save results to file: {e}")
	raise
	else:
	print(json.dumps(result, indent=4))

	def main(url, elements_input, api_key, output_file=None):
	"""
	Main function to orchestrate the web scraping.

	Args:
	url (str): The URL to scrape.
	elements_input (str or list): The elements to extract, as key=value pairs or a JSON string.
	api_key (str): OpenAI API key for the default model.
	output_file (str): Optional file path to save the results.

	Raises:
	ValueError: If the API key is not provided.
	"""
	if not api_key:
	raise ValueError("OpenAI API Key is required. Please provide it via --openai_api_key or set the OPENAI_API_KEY environment variable.")

	os.environ["OPENAI_API_KEY"] = api_key
	scrapper = initialize_parsera()
	elements = parse_elements(elements_input)
	result = scrape_website(scrapper, url, elements)
	save_results(result, output_file)

	if __name__ == "__main__":
	parser = argparse.ArgumentParser(description="Scrape a website using Parsera with OpenAI.")
	parser.add_argument("--url", required=True, help="The URL of the website to scrape.")
	parser.add_argument("--elements", required=True, help="Elements to extract as key=value pairs or a JSON string.")
	parser.add_argument("--openai_api_key", help="OpenAI API Key. Can also be set via OPENAI_API_KEY environment variable.")
	parser.add_argument("--output_file", help="Optional file path to save the results.")

	args = parser.parse_args()

	# Retrieve OpenAI API key from arguments or environment variable
	api_key = args.openai_api_key or os.getenv("OPENAI_API_KEY")

	main(
	url=args.url,
	elements_input=args.elements,
	api_key=api_key,
	output_file=args.output_file
	)