Kevin Kho kvnkho

🎯

Heads down building

Building KnitKnot. Fugue Maintainer. @fugue-project

kvnkho / process_img_fugue.py

Created December 30, 2022 23:15

	from fugue import transform
	from pyspark.sql import SparkSession

	spark = SparkSession.builder.getOrCreate()
	results = transform(df,
	transform_img,
	schema="*",
	engine=spark)

kvnkho / process_img.py

Last active December 30, 2022 23:11

	import requests
	from typing import Any, Dict, Iterable
	from PIL import Image
	from io import BytesIO

	def transform_img(df: List[Dict[str, Any]]) -> Iterable[str, Any]:
	for row in df:
	try:
	response = requests.get(row["ImgUrl"], timeout=5)
	img = Image.open(BytesIO(response.content))

kvnkho / dask_duck.py

Created October 26, 2022 04:21

Dask orchestrating DuckDB jobs

	import pandas as pd

	df = pd.DataFrame({"col1": [1,2,3], "col2": ["a", "b", "c"]})
	df2 = pd.DataFrame({"col1": [1,2,3], "col2": ["d", "e", "f"]})

	df.to_parquet("/tmp/test1.parquet")
	df2.to_parquet("/tmp/test2.parquet")

	from fugue_sql import fsql
	from typing import Iterable, List, Any, Dict

kvnkho / whylogs_partition_coiled.py

Created October 18, 2022 21:56

fugue_profile(dask_df, partition={"by":["a","b"]}, engine=client)

kvnkho / whylogs_env.py

Created October 18, 2022 21:46

	import coiled

	coiled.create_software_environment(
	name="profiling",
	pip=["fugue[dask]", "whylogs"],
	)

kvnkho / coiled_whylogs.py

Last active October 18, 2022 21:45

	from dask.distributed import Client
	from coiled import Cluster
	from whylogs.api.fugue import fugue_profile

	cluster = Cluster(name="quickstart", software="profiling", n_workers=2)
	client = Client(cluster)

	fugue_profile(df, engine=client).to_pandas()

kvnkho / whylogs_partition.py

Created September 28, 2022 20:24

fugue_profile(spark_df, partition={"by":["a","b"]}, engine=spark_session)

kvnkho / whylogs_fugue_spark.py

Created September 28, 2022 20:22

	from whylogs.api.fugue import fugue_profile
	from pyspark.sql import SparkSession

	spark = SparkSession.builder.getOrCreate()
	fugue_profile(spark_df, engine=spark)

kvnkho / whylogs_fugue.py

Created September 28, 2022 20:18

	from whylogs.api.fugue import fugue_profile

	fugue_profile(pandas_df).to_pandas()

kvnkho / whylogs.py

Created September 28, 2022 19:41