项目作者: axelgomez

项目描述 :
Manual de inicialización y configuración del Hadoop Sandbox provisto por DBlandIT en el curso de Intro a BigData
高级语言:
项目地址: git://github.com/axelgomez/dblandit-hdp-sandbox-manual.git
创建时间: 2019-04-23T19:21:40Z
项目社区:https://github.com/axelgomez/dblandit-hdp-sandbox-manual

开源协议:GNU General Public License v3.0

下载


Iniciar y agregar al path HDFS y HIVE en hadoop sandbox

Iniciar HDFS y YARN

  • Correr desde la consola
    1. /home/hadoop/Desktop/curso/bin/start.sh

Deberá devolver algo similar a:

  1. hadoop@hadoop-ml:~$ /home/hadoop/Desktop/curso/bin/start.sh
  2. No arguments provided. Starting all daemons
  3. Starting hadoop
  4. Starting namenode...
  5. namenode running as process 2429. Stop it first.
  6. Starting datanode
  7. datanode running as process 2476. Stop it first.
  8. Starting yarn
  9. Starting resourcemanager
  10. resourcemanager running as process 2538. Stop it first.
  11. Starting nodemanager
  12. nodemanager running as process 2566. Stop it first.
  13. Starting zookeeper
  14. ZooKeeper JMX enabled by default
  15. Using config: /home/hadoop/Desktop/curso/zookeeper-3.4.10/bin/../conf/zoo.cfg
  16. Starting zookeeper ... already running as process 2631.
  17. Starting spark
  18. Starting master...
  19. org.apache.spark.deploy.master.Master running as process 2659. Stop it first.
  20. Starting slave...
  21. org.apache.spark.deploy.worker.Worker running as process 2711. Stop it first.

Aquí ya se podrá interactuar con HDFS y HIVE

Agregar binarios al path

Para poder correr los binarios de HDFS o HIVE (o cualquier otro que se prefiera) se deberá tener en el PATH de linux los directorios que incluyen esos binarios que queremos ejecutar.
Para que simplemente ejecutando hdfs o hive o cualquier binario que se utilice dentro de hadoop (sqoop, pyspark, etc….) se deberá comprobar si los binarios están dentro del PATH:

  • En tal caso, al ejecutar:
    1. hdfs

La salida será:

  1. hadoop@hadoop-ml:~$ hdfs
  2. Usage: hdfs [--config confdir] [--loglevel loglevel] COMMAND
  3. where COMMAND is one of:
  4. dfs run a filesystem command on the file systems supported in Hadoop.
  5. classpath prints the classpath
  6. namenode -format format the DFS filesystem
  7. secondarynamenode run the DFS secondary namenode
  8. ...
  • En caso contrario, si el error fuese:
    1. hdfs: command not found
  • ejecutar la siguiente linea por consola:
    1. echo "export PATH=\$HADOOP_HOME/bin:\$HIVE_HOME/bin:\$PATH" >> ~/.bashrc

Activamos los cambios hechos al bashrc

  1. source ~/.bashrc

Finalmente, ya se podrán ejecutar hdfs y hive

Para agregar Pig

Ejecutar desde la consola:

  1. cd ~/Desktop/curso/ && wget http://apache.dattatec.com/pig/pig-0.16.0/pig-0.16.0.tar.gz
  2. tar -xvf pig-0.16.0.tar.gz

Ahora, agregamos el path del binario de pig:

  1. echo "export PIG_HOME=/home/hadoop/Desktop/curso/pig-0.16.0" >> ~/.bashrc
  2. echo "export PATH=\$PIG_HOME/bin:\$PATH" >> ~/.bashrc

Activamos los cambios hechos al bashrc

  1. source ~/.bashrc

Finalmente, ya se podrá ejecutar pig

Extras

Para saber si hdfs inició correctamente hay que dirigirse a la siguiente url en un navegador dentro de la máquina virtual:
http://127.0.0.1:50070

O conociendo la IP de la máquina (por medio del comando ifconfig dentro de la virtual) dirigirse (desde la máquina local) a:
http://:50070
reemplazando por la IP correspondiente