Cómo instalar Apache Hadoop en Ubuntu 22.04

Apache Hadoop es un marco de trabajo de código abierto para procesar y almacenar grandes datos. En las industrias de hoy, Hadoop se ha convertido en el marco estándar para grandes datos. Hadoop está diseñado para ejecutarse en sistemas distribuidos con cientos o incluso miles de computadoras agrupadas o servidores dedicados. Con esto en mente, Hadoop puede manejar grandes conjuntos de datos con alto volumen y complejidad tanto para datos estructurados como no estructurados.

Cada implementación de Hadoop contiene los siguientes componentes:

Hadoop Common: Las utilidades comunes que soportan los otros módulos de Hadoop.
Hadoop Distributed File System (HDFS): Un sistema de archivos distribuido que proporciona acceso de alto rendimiento a los datos de la aplicación.
Hadoop YARN: Un marco para la programación de trabajos y la gestión de recursos del clúster.
Hadoop MapReduce: Un sistema basado en YARN para el procesamiento paralelo de grandes conjuntos de datos.

En este tutorial, instalaremos la última versión de Apache Hadoop en un servidor Ubuntu 22.04. Hadoop se instalará en un servidor de nodo único y crearemos un modo de despliegue de Hadoop Pseudo-Distribuido.

Requisitos previos

Para completar esta guía, necesitarás los siguientes requisitos:

Un servidor Ubuntu 22.04 - Este ejemplo utiliza un servidor Ubuntu con nombre de host ‘hadoop’ y dirección IP ‘192.168.5.100’.
Un usuario no root con privilegios de administrador sudo/root.

Instalando Java OpenJDK

Hadoop es un gran proyecto bajo la Apache Software Foundation, está principalmente escrito en Java. En el momento de escribir esto, la última versión de Hadoop es v3.3.4, que es completamente compatible con Java v11.

El Java OpenJDK 11 está disponible por defecto en el repositorio de Ubuntu, y lo instalarás a través de APT.

Para comenzar, ejecuta el siguiente comando apt para actualizar y refrescar las listas/repositories de paquetes en tu sistema Ubuntu.

sudo apt update

Ahora instala el Java OpenJDK 11 a través del comando apt a continuación. En el repositorio de Ubuntu 22.04, el paquete ‘default-jdk’ se refiere al Java OpenJDK v11.

sudo apt install default-jdk

Cuando se te pida, ingresa y para confirmar y presiona ENTER para continuar. Y la instalación de Java OpenJDK comenzará.

instalar java

Después de que Java esté instalado, ejecuta el siguiente comando para verificar la versión de Java. Deberías obtener el Java OpenJDK 11 instalado en tu sistema Ubuntu.

java -version

Ahora que el Java OpenJDK está instalado, configurarás un nuevo usuario con autenticación SSH sin contraseña que se utilizará para ejecutar procesos y servicios de Hadoop.

Configurando usuario y autenticación SSH sin contraseña

Apache Hadoop requiere que el servicio SSH esté en ejecución en el sistema. Esto será utilizado por los scripts de Hadoop para gestionar el demonio remoto de Hadoop en el servidor remoto. En este paso, crearás un nuevo usuario que se utilizará para ejecutar procesos y servicios de Hadoop y luego configurarás la autenticación SSH sin contraseña.

En caso de que no tengas SSH instalado en tu sistema, ejecuta el comando apt a continuación para instalar SSH. El paquete ‘pdsh‘ es un cliente de shell remoto multihilo que te permite ejecutar comandos en múltiples hosts en modo paralelo.

sudo apt install openssh-server openssh-client pdsh

Ahora ejecuta el siguiente comando para crear un nuevo usuario ‘hadoop’ y configurar la contraseña para el usuario ‘hadoop’.

sudo useradd -m -s /bin/bash hadoop  
sudo passwd hadoop

Ingresa la nueva contraseña para el usuario ‘hadoop‘ y repite la contraseña.

A continuación, agrega el usuario ‘hadoop’ al grupo ‘sudo‘ a través del comando usermod a continuación. Esto permite que el usuario ‘hadoop’ ejecute el comando ‘sudo’.

sudo usermod -aG sudo hadoop

Ahora que el usuario ‘hadoop’ está creado, inicia sesión en el usuario ‘hadoop‘ a través del siguiente comando.

su - hadoop

Después de iniciar sesión, tu prompt se verá así: “ hadoop@hostname.. “.

configurar usuario

A continuación, ejecuta el siguiente comando para generar la clave pública y privada SSH. Cuando se te pida configurar la contraseña para la clave, presiona ENTER para omitir.

ssh-keygen -t rsa

La clave SSH ahora se ha generado en el directorio ~/.ssh. El id_rsa.pub es la clave pública SSH y el archivo ‘id_rsa’ es la clave privada.

generar clave ssh

Puedes verificar la clave SSH generada a través del siguiente comando.

ls ~/.ssh/

A continuación, ejecuta el siguiente comando para copiar la clave pública SSH ‘id_rsa.pub‘ al archivo ‘authorized_keys‘ y cambiar el permiso predeterminado a 600.

En ssh, el archivo ‘authorized_keys‘ es donde almacenas la clave pública ssh, que puede ser múltiples claves públicas. Cualquiera que tenga la clave pública almacenada en el archivo ‘authorized_keys‘ y tenga la clave privada correcta podrá conectarse al servidor como usuario ‘hadoop‘ sin una contraseña.

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  
chmod 600 ~/.ssh/authorized_keys

configurar ssh sin contraseña

Con la configuración de SSH sin contraseña terminada, puedes verificar conectándote a la máquina local a través del comando ssh a continuación.

ssh localhost

Ingresa yes para confirmar y agregar la huella digital SSH y estarás conectado al servidor sin autenticación por contraseña.

conectar ssh sin contraseña

Ahora que el usuario ‘hadoop‘ está creado y la autenticación SSH sin contraseña configurada, procederás a la instalación de Hadoop descargando el paquete binario de Hadoop.

Descargando Hadoop

Después de crear un nuevo usuario y configurar la autenticación SSH sin contraseña, ahora puedes descargar el paquete binario de Apache Hadoop y configurar el directorio de instalación para él. En este ejemplo, descargarás Hadoop v3.3.4 y el directorio de instalación objetivo será el directorio ‘/usr/local/hadoop‘.

Ejecuta el siguiente comando wget para descargar el paquete binario de Apache Hadoop al directorio de trabajo actual. Deberías obtener el archivo ‘hadoop-3.3.4.tar.gz‘ en tu directorio de trabajo actual.

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

A continuación, extrae el paquete de Apache Hadoop ‘hadoop-3.3.4.tar.gz’ a través del comando tar a continuación. Luego, mueve el directorio extraído a ‘/usr/local/hadoop‘.

tar -xvzf hadoop-3.3.4.tar.gz  
sudo mv hadoop-3.3.4 /usr/local/hadoop

Por último, cambia la propiedad del directorio de instalación de Hadoop ‘/usr/local/hadoop’ al usuario ‘hadoop‘ y grupo ‘hadoop‘.

sudo chown -R hadoop:hadoop /usr/local/hadoop

descargar hadoop

En este paso, descargaste el paquete binario de Apache Hadoop y configuraste el directorio de instalación de Hadoop. Con eso en mente, ahora puedes comenzar a configurar la instalación de Hadoop.

Configurando variables de entorno de Hadoop

Abre el archivo de configuración ‘~/.bashrc‘ a través del comando del editor nano a continuación.

nano ~/.bashrc

Agrega las siguientes líneas al archivo. Asegúrate de colocar las siguientes líneas al final del archivo.

# Variables de entorno de Hadoop  
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  
export HADOOP_HOME=/usr/local/hadoop  
export HADOOP_INSTALL=$HADOOP_HOME  
export HADOOP_MAPRED_HOME=$HADOOP_HOME  
export HADOOP_COMMON_HOME=$HADOOP_HOME  
export HADOOP_HDFS_HOME=$HADOOP_HOME  
export HADOOP_YARN_HOME=$HADOOP_HOME  
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native  
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin  
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Guarda el archivo y sal del editor cuando hayas terminado.

A continuación, ejecuta el siguiente comando para aplicar los nuevos cambios dentro del archivo ‘~/.bashrc‘.

source ~/.bashrc

Después de que se ejecute el comando, las nuevas variables de entorno se aplicarán. Puedes verificar revisando cada variable de entorno a través del siguiente comando. Y deberías obtener la salida de cada variable de entorno.

echo $JAVA_HOME  
echo $HADOOP_HOME  
echo $HADOOP_OPTS

A continuación, también configurarás la variable de entorno JAVA_HOME en el script ‘hadoop-env.sh‘.

Abre el archivo ‘hadoop-env.sh’ usando el siguiente comando del editor nano. El archivo ‘hadoop-env.sh’ está disponible en el directorio ‘$HADOOP_HOME‘, que se refiere al directorio de instalación de Hadoop ‘/usr/local/hadoop‘.

nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Descomenta la línea de entorno JAVA_HOME y cambia el valor al directorio de instalación de Java OpenJDK ‘/usr/lib/jvm/java-11-openjdk-amd64‘.

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

Guarda el archivo y sal del editor cuando hayas terminado.

configurar java home

Con la configuración de variables de entorno, ejecuta el siguiente comando para verificar la versión de Hadoop en tu sistema. Deberías ver Apache Hadoop 3.3.4 instalado en tu sistema.

hadoop version

versión de hadoop

En este punto, estás listo para configurar y desplegar el clúster de Hadoop, que puede ser desplegado en múltiples modos.

Configurando el clúster de Apache Hadoop: Modo Pseudo-Distribuido

En Hadoop, puedes crear un clúster en tres modos diferentes:

Modo Local (Standalone) - instalación predeterminada de Hadoop, que se ejecuta como un solo proceso Java y en modo no distribuido. Con esto, puedes depurar fácilmente el proceso de Hadoop.
Modo Pseudo-Distribuido - Esto te permite ejecutar un clúster de Hadoop en modo distribuido incluso con solo un nodo/servidor único. En este modo, los procesos de Hadoop se ejecutarán en procesos Java separados.
Modo Totalmente Distribuido - gran despliegue de Hadoop con múltiples o incluso miles de nodos/servidores. Si deseas ejecutar Hadoop en producción, deberías usar Hadoop en modo totalmente distribuido.

En este ejemplo, configurarás un clúster de Apache Hadoop con modo Pseudo-Distribuido en un solo servidor Ubuntu. Para hacer eso, harás cambios en algunas de las configuraciones de Hadoop:

core-site.xml - Esto se utilizará para definir el NameNode para el clúster de Hadoop.
hdfs-site.xml - Esta configuración se utilizará para definir el DataNode en el clúster de Hadoop.
mapred-site.xml - La configuración de MapReduce para el clúster de Hadoop.
yarn-site.xml - Configuración de ResourceManager y NodeManager para el clúster de Hadoop.

Configurando NameNode y DataNode

Primero, configurarás el NameNode y DataNode para el clúster de Hadoop.

Abre el archivo ‘$HADOOP_HOME/etc/hadoop/core-site.xml‘ usando el siguiente comando del editor nano.

sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml

Agrega las siguientes líneas al archivo. Asegúrate de cambiar la dirección IP del NameNode, o puedes reemplazarla con ‘0.0.0.0’ para que el NameNode se ejecute en todas las interfaces y direcciones IP.

  
      
        fs.defaultFS  
        hdfs://192.168.5.100:9000

Guarda el archivo y sal del editor cuando hayas terminado.

A continuación, ejecuta el siguiente comando para crear nuevos directorios que se utilizarán para el DataNode en el clúster de Hadoop. Luego, cambia la propiedad de los directorios del DataNode al usuario ‘hadoop‘.

sudo mkdir -p /home/hadoop/hdfs/{namenode,datanode}  
sudo chown -R hadoop:hadoop /home/hadoop/hdfs

Después de eso, abre el archivo ‘$HADOOP_HOME/etc/hadoop/hdfs-site.xml’ usando el siguiente comando del editor nano.

sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Agrega la siguiente configuración al archivo. En este ejemplo, configurarás el clúster de Hadoop en un solo nodo, por lo que debes cambiar el valor de ‘dfs.replication’ a ‘1’. Además, debes especificar el directorio que se utilizará para el DataNode.

  
      
        dfs.replication  
        1  
      
     
      dfs.name.dir  
      file:///home/hadoop/hdfs/namenode  
     
     
      dfs.data.dir  
      file:///home/hadoop/hdfs/datanode

Guarda el archivo y sal del editor cuando hayas terminado.

Con el NameNode y DataNode configurados, ejecuta el siguiente comando para formatear el sistema de archivos de Hadoop.

hdfs namenode -format

Recibirás una salida como esta:

formatear namednode

A continuación, inicia el NameNode y DataNode a través del siguiente comando. El NameNode se ejecutará en la dirección IP del servidor que has configurado en el archivo ‘core-site.xml’.

start-dfs.sh

Verás una salida como esta:

iniciar namenode datanode

Ahora que el NameNode y DataNode están en ejecución, verificarás ambos procesos a través de la interfaz web.

La interfaz web del NameNode de Hadoop se ejecuta en el puerto ‘9870‘. Así que, abre tu navegador web y visita la dirección IP del servidor seguida del puerto 9870 (es decir: http://192.168.5.100:9870/).

Deberías obtener ahora la página como la siguiente captura de pantalla - El NameNode está actualmente activo.

namenode está en ejecución

Ahora haz clic en el menú ‘Datanodes’ y deberías obtener el DataNode actual que está activo en el clúster de Hadoop. La siguiente captura de pantalla confirma que el DataNode está en ejecución en el puerto ‘9864‘ en el clúster de Hadoop.

lista datanode

Haz clic en la ‘ Http Address ‘ del DataNode y deberías obtener una nueva página con información detallada sobre el DataNode. La siguiente captura de pantalla confirma que el DataNode está en ejecución con el directorio de volumen ‘/home/hadoop/hdfs/datanode‘.

estado de datanode

Con el NameNode y DataNode en ejecución, a continuación configurarás y ejecutarás MapReduce en el gestor Yarn (Yet Another ResourceManager y NodeManager).

Gestor Yarn

Para ejecutar un MapReduce en Yarn en el modo pseudo-distribuido, necesitas hacer algunos cambios en los archivos de configuración.

Abre el archivo ‘$HADOOP_HOME/etc/hadoop/mapred-site.xml‘ usando el siguiente comando del editor nano.

sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Agrega las siguientes líneas al archivo. Asegúrate de cambiar el mapreduce.framework.name a ‘yarn’.

  
      
        mapreduce.framework.name  
        yarn  
      
      
        mapreduce.application.classpath  
        $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*

Guarda el archivo y sal del editor cuando hayas terminado.

A continuación, abre la configuración de Yarn ‘$HADOOP_HOME/etc/hadoop/yarn-site.xml‘ usando el siguiente comando del editor nano.

sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Cambia la configuración predeterminada con los siguientes ajustes.

  
      
        yarn.nodemanager.aux-services  
        mapreduce_shuffle  
      
      
        yarn.nodemanager.env-whitelist  
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME

Guarda el archivo y sal del editor cuando hayas terminado.

Ahora ejecuta el siguiente comando para iniciar los demonios de Yarn. Y deberías ver que tanto ResourceManager como NodeManager están iniciando.

start-yarn.sh

El ResourceManager debería estar ejecutándose en el puerto predeterminado 8088. Regresa a tu navegador web y visita la dirección IP del servidor seguida del puerto ResourceManager ‘8088’ (es decir: http://192.168.5.100:8088/).

Deberías ver la interfaz web del ResourceManager de Hadoop. Desde aquí, puedes monitorear todos los procesos en ejecución dentro del clúster de Hadoop.

gestor YARN hadoop

Haz clic en el menú Nodes y deberías obtener el nodo actual en ejecución en el clúster de Hadoop.

lista de nodos

Ahora el clúster de Hadoop está en ejecución en modo pseudo-distribuido. Esto significa que cada proceso de Hadoop se está ejecutando como un solo proceso en un único servidor Ubuntu 22.04, que incluye el NameNode, DataNode, MapReduce y Yarn.

Conclusión

En esta guía, instalaste Apache Hadoop en un servidor Ubuntu 22.04 de máquina única. Instalaste Hadoop con el modo Pseudo-Distribuido habilitado, lo que significa que cada componente de Hadoop se está ejecutando como un solo proceso Java en el sistema. En esta guía, también aprendiste cómo configurar Java, configurar variables de entorno del sistema y configurar autenticación SSH sin contraseña a través de clave pública-privada SSH.

Este tipo de despliegue de Hadoop, modo Pseudo-Distribuido, se recomienda solo para pruebas. Si deseas un sistema distribuido que pueda manejar conjuntos de datos medianos o grandes, puedes desplegar Hadoop en modo Clúster, que requiere más sistemas de computación y proporciona alta disponibilidad para tu aplicación.

Requisitos previos

Instalando Java OpenJDK

Configurando usuario y autenticación SSH sin contraseña

Descargando Hadoop

Configurando variables de entorno de Hadoop

Configurando el clúster de Apache Hadoop: Modo Pseudo-Distribuido

Configurando NameNode y DataNode

Gestor Yarn

Conclusión

Recibe nuevas publicaciones en tu bandeja de entrada.