busy bee

Alin Preda aleenprd

busy bee

Copenhagen based data scientist and data engineer.

aleenprd / rag_over_csv.py

Created October 31, 2025 11:37

rag over sv

	import os
	import sys
	from pprint import pprint
	import asyncio
	from loguru import logger
	from dotenv import load_dotenv
	from llama_index.core.agent.workflow import FunctionAgent
	from llama_index.llms.openai import OpenAI
	from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
	from llama_index.readers.file import PandasCSVReader

aleenprd / start-llamacpp-server-docker.sh

Created July 26, 2025 19:03

Start a docker server for llama.cpp

	#!/bin/bash

	# Llama.cpp Docker Server Launcher
	#
	# This script can be configured using environment variables and/or command-line arguments.
	# Command-line arguments take precedence over environment variables.
	#
	# Environment variables:
	# LLAMA_HOST - Server host (default: 0.0.0.0)
	# LLAMA_PORT - Server port (default: 8000)

aleenprd / WorldPostCodeScraper.py

Last active November 11, 2023 17:19

WorldPostCodeScraper

	import pandas as pd
	from urllib import request
	from bs4 import BeautifulSoup
	from fake_useragent import UserAgent
	from typing import Union
	from time import sleep


	class WorldPostCodeScraper:
	"""Scraper class for https://worldpostalcode.com/."""

aleenprd / scrape_imdb_reviews_main.py

Created October 24, 2022 19:47

scrape_imdb_reviews_main

	"""Python executable which scrapes IMDB for reviews."""


	import argparse
	import pandas as pd
	from time import sleep
	from tqdm import tqdm

	from dependencies.general import timing
	from dependencies.scrapers import ImdbReviewScraper

aleenprd / ImdbReviewScraper.py

Created October 24, 2022 19:45

ImdbReviewScraper

	class ImdbReviewScraper(Scraper):
	"""Implements methods for scraping IMDB.

	Inherited Attributes:
	chromedriver (chromedriver): a Chrome webdriver for Selenium.

	Own Methods:
	@staticmethod get_ratings_page
	@staticmethod get_reviews_page
	get_episodes_links

aleenprd / ImdbReviewScraper.py

Created October 24, 2022 17:51

ImdbReviewScraper

	class ImdbReviewScraper(Scraper):
	"""Implements methods for scraping IMDB.

	Inherited Attributes:
	chromedriver (chromedriver): a Chrome webdriver for Selenium.

	Own Methods:
	@staticmethod get_ratings_page
	@staticmethod get_reviews_page
	get_episodes_links

aleenprd / scraper_base_class.py

Last active October 24, 2022 18:11

scraper_base_class

	class ScraperException(Exception):
	"""Starting point for Scraper exceptions."""
	pass


	class ImdbScraperException(ScraperException):
	"""Starting point for Scraper exceptions."""
	pass

aleenprd / imports_scraper_classes.py

Last active October 24, 2022 18:12

imports_scraper_classes

	# Data manipulation
	import pandas as pd
	import re as regex

	# Scraping
	from bs4 import BeautifulSoup
	from selenium import webdriver
	from selenium.webdriver.common.by import By
	from selenium.webdriver.chrome.service import Service
	from webdriver_manager.chrome import ChromeDriverManager

aleenprd / scrape_imdb_reviews_pages_main.py

Last active October 20, 2022 19:30

scrape_imdb_reviews_pages

	@timing
	def main(season_link: str, show_link: str, driver_service: Service, output_path: str) -> None:
	"""Main function to scrape an IMDB season's reviews for each episode and also the general reviews.

	Args:
	season_link (str): URL pointing to season page.
	show_link (str): URL pointing to show general reviews.
	driver_service (Service): a Chrome web driver.
	output_path (str): path including filename where we want to save the CSV.
	"""

aleenprd / scrape_reviews_page.py

Last active October 21, 2022 19:22

scrape_reviews_page

	def scrape_reviews_page(reviews_soup: BeautifulSoup) -> pd.DataFrame:
	"""Scrape IMDB reviews page.

	Note: Extracts ratings, usernames, review date, titles, review body text,
	number of reactions, total reactions to review.

	Args:
	reviews_soup (BeautifulSoup): soup of the entirely loaded reviews page.

	Returns: