jonashaag · February 16, 2022 15:07
diff --git a/conftest.py b/conftest.py
 from pyspark.sql import SparkSession


 def local_pyspark_cluster(n_cpus=1, memory_mb=512) -> SparkSession:
    """Start a local PySpark cluster with default settings.

    Returns a client to that session.
    """
    return (
        SparkSession.builder.master(f"local[{n_cpus}]")
        .config("spark.driver.memory", f"{memory_mb}m")
        .config("spark.sql.warehouse.dir", "/tmp/")
        .getOrCreate()
    )
diff --git a/windows-setup-pyspark.sh b/windows-setup-pyspark.sh
 # Source this file using ". windows-setup-pyspark.sh"

 export HADOOP_HOME=`mktemp -d`
 git clone https://github.com/cdarlint/winutils --depth 1
 cp -r winutils/hadoop-3.2.2/* "$HADOOP_HOME"
 export PATH="$PATH:$HADOOP_HOME/bin"
 export PYSPARK_PYTHON=`which python`
	from pyspark.sql import SparkSession


	def local_pyspark_cluster(n_cpus=1, memory_mb=512) -> SparkSession:
	"""Start a local PySpark cluster with default settings.

	Returns a client to that session.
	"""
	return (
	SparkSession.builder.master(f"local[{n_cpus}]")
	.config("spark.driver.memory", f"{memory_mb}m")
	.config("spark.sql.warehouse.dir", "/tmp/")
	.getOrCreate()
	)
	# Source this file using ". windows-setup-pyspark.sh"

	export HADOOP_HOME=`mktemp -d`
	git clone https://github.com/cdarlint/winutils --depth 1
	cp -r winutils/hadoop-3.2.2/* "$HADOOP_HOME"
	export PATH="$PATH:$HADOOP_HOME/bin"
	export PYSPARK_PYTHON=`which python`