sudo apt-get update
sudo apt-get install openjdk-8-jdk
Añadimos JAVA_HOME a las variables de entorno en nano ~/.bashrc
o nano ~/.zshrc
,
EXPORT JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
sudo apt-get install scala
- Ir a
http://spark.apache.org/downloads.html
- Descargarlo (es el paso 3 en la web)
- Descomprimirlo:
sudo tar xzvf spark-blabla.tgz
sudo mv /usr/local/spark_VERSION /usr/local/spark
- Añadimos variables de entorno:
5.1.nano ~/.bashrc
onano ~/.zshrc
5.2. Añadimos
export SPARK_HOME=/usr/local/spark
export PYSPARK_PYTHON=python3
export PATH=$SPARK_HOME/bin:$PATH
source ~/.bashrc
osource ~/.zshrc
Abre una consola de python3 y escribe import pyspark
para comprobarlo
Es bastante comun que cuando escribas import pyspark falle porque no encuentra la libreria py4j. Hay 2 soluciones, cualquiera de las 2 opciones es igual de valida.
pip3 install py4j
- Añadir nuevas variables de entorno
2.1.ls $SPARK_HOME/python/lib/ | ps py4j
2.2. Copia la salida de ese comando e introducela en SALIDA_LS de la linea siguiente.
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-{SALIDA_2.1}-src.zip:$PYTHONPATH
2.3. Ahora, añadimos estas variables de entorno ennano ~/.bashrc
onano ~/.zshrc
, y luego repites el paso 6
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-{SALIDA_2.1}-src.zip:$PYTHONPATH
Esta variable supuestamente es obligatoria. NO obstante, he instalado varias veces Spark sin esta libreria, y no falla en ningun sitio. ahí la dejo por si acaso.
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH