Ejercicio 1 - Carga de archivos en HDFS
# crear carpeta en hadoop
hdfs dfs -mkdir /movielens-20m
# descarga de archivos de s3 a carpeta loca
aws s3 cp s3://bigdata-desafio/challenges/u3act1/ movies/ --recursive
# copiar archivos descargados a la carpeta movielens-20m de hadoop
hdfs dfs -copyFromLocal movies/ /movielens-20m
# listado de contiendo /movielens-20m
hdfs dfs -ls /movielens-20m
# listado de streaming-jar
find /usr/lib -name ' *streaming*' -print
Ejercicio 2 - Utilizando el archivo genome-scores.csv
cat movies/genome-scores.csv | python mapper_1.py | sort -k 1,1 | python reducer_1.py
chmod +x mapper_1.py
chmod +x reducer_1.py
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming-2.8.5-amzn-5.jar -file mapper_1.py -mapper mapper_1.py -file reducer_1.py -reducer reducer_1.py -input ///movielens-20m/genome-scores.csv -output register-results
hdfs dfs -getmerge register-results results_1.txt
chmod +x mapper_2.py
chmod +x reducer_2.py
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming-2.8.5-amzn-5.jar -file mapper_2.py -mapper mapper_2.py -file reducer_2.py -reducer reducer_2.py -input ///movielens-20m/ratings.csv -output score_result_2
hdfs dfs -getmerge score_result_2 results_2.txt
cat movies/ratings.csv | python mapper_3.py | sort -k 1,1 | python reducer_3.py
chmod +x mapper_3.py
chmod +x reducer_3.py
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming-2.8.5-amzn-5.jar -file mapper_3.py -mapper mapper_3.py -file reducer_3.py -reducer reducer_3.py -input ///movielens-20m/ratings.csv -output ejercicio4-result
hdfs dfs -getmerge ejercicio4-result results_3.txt
cat movies/movies.csv | python mapper_4.py | sort -k 1,1 | python reducer_4.py
chmod +x mapper_4.py
chmod +x reducer_4.py
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming-2.8.5-amzn-5.jar -file mapper_4.py -mapper mapper_4.py -file reducer_4.py -reducer reducer_4.py -input ///movielens-20m/movies.csv -output ejercicio5-result
hdfs dfs -getmerge ejercicio5-result results_4.txt
copiar archivos de la instancia al mac local
asume que la carpeta de archivos esta en desafio5
muevan la carpeta movies fuera del directorio donde estan los archivos pa que no se descargue
mkdir desafio-5
scp -i ~/desafio-gd-pem.pem "[email protected] :~/desafio5/*" desafio-5/
mapper_1.py