Skip to content

Instantly share code, notes, and snippets.

@carlosevi94
Last active July 16, 2021 08:44
Show Gist options
  • Save carlosevi94/3d5c5fecdeeb5acddd46050a044afbc5 to your computer and use it in GitHub Desktop.
Save carlosevi94/3d5c5fecdeeb5acddd46050a044afbc5 to your computer and use it in GitHub Desktop.
Instrucciones para instalar spark en Ubuntu o en MacOS.

Instalar Spark 2.4 en Ubuntu (en macOS, tambien funciona)

Paso 0:

sudo apt-get update

Paso 1: Instalar Java

sudo apt-get install openjdk-8-jdk

Añadimos JAVA_HOME a las variables de entorno en nano ~/.bashrc o nano ~/.zshrc,

EXPORT JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

Paso 2: Instalar Scala

sudo apt-get install scala

Paso 3: Instalar Spark

  1. Ir a http://spark.apache.org/downloads.html
  2. Descargarlo (es el paso 3 en la web)
  3. Descomprimirlo: sudo tar xzvf spark-blabla.tgz
  4. sudo mv /usr/local/spark_VERSION /usr/local/spark
  5. Añadimos variables de entorno:
    5.1. nano ~/.bashrc o nano ~/.zshrc
    5.2. Añadimos
export SPARK_HOME=/usr/local/spark
export PYSPARK_PYTHON=python3

export PATH=$SPARK_HOME/bin:$PATH
  1. source ~/.bashrc o source ~/.zshrc

Listo!

Abre una consola de python3 y escribe import pyspark para comprobarlo

Fallos Comunes:

Es bastante comun que cuando escribas import pyspark falle porque no encuentra la libreria py4j. Hay 2 soluciones, cualquiera de las 2 opciones es igual de valida.

  1. pip3 install py4j
  2. Añadir nuevas variables de entorno
    2.1. ls $SPARK_HOME/python/lib/ | ps py4j
    2.2. Copia la salida de ese comando e introducela en SALIDA_LS de la linea siguiente.
    export PYTHONPATH=$SPARK_HOME/python/lib/py4j-{SALIDA_2.1}-src.zip:$PYTHONPATH
    2.3. Ahora, añadimos estas variables de entorno en nano ~/.bashrc o nano ~/.zshrc, y luego repites el paso 6
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-{SALIDA_2.1}-src.zip:$PYTHONPATH

Otros:

Esta variable supuestamente es obligatoria. NO obstante, he instalado varias veces Spark sin esta libreria, y no falla en ningun sitio. ahí la dejo por si acaso.

export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment