Comment installer Apache Hadoop sur Ubuntu 22.04

Apache Hadoop est un cadre open-source pour le traitement et le stockage de grandes données. Dans les industries d’aujourd’hui, Hadoop est devenu le cadre standard pour les grandes données. Hadoop est conçu pour être exécuté sur des systèmes distribués avec des centaines, voire des milliers d’ordinateurs regroupés ou de serveurs dédiés. Avec cela à l’esprit, Hadoop peut gérer de grands ensembles de données avec un volume et une complexité élevés pour les données structurées et non structurées.

Chaque déploiement Hadoop contient les composants suivants :

Hadoop Common : Les utilitaires communs qui soutiennent les autres modules Hadoop.
Hadoop Distributed File System (HDFS) : Un système de fichiers distribué qui fournit un accès à haut débit aux données d’application.
Hadoop YARN : Un cadre pour la planification des tâches et la gestion des ressources du cluster.
Hadoop MapReduce : Un système basé sur YARN pour le traitement parallèle de grands ensembles de données.

Dans ce tutoriel, nous allons installer la dernière version d’Apache Hadoop sur un serveur Ubuntu 22.04. Hadoop est installé sur un serveur à nœud unique et nous créons un mode pseudo-distribué de déploiement Hadoop.

Prérequis

Pour compléter ce guide, vous aurez besoin des exigences suivantes :

Un serveur Ubuntu 22.04 - Cet exemple utilise un serveur Ubuntu avec le nom d’hôte ‘hadoop’ et l’adresse IP ‘192.168.5.100’.
Un utilisateur non-root avec des privilèges d’administrateur sudo/root.

Installation de Java OpenJDK

Hadoop est un énorme projet sous la Fondation Apache Software, il est principalement écrit en Java. Au moment de la rédaction de cet article, la dernière version de Hadoop est v3.3.4, qui est entièrement compatible avec Java v11.

Le Java OpenJDK 11 est disponible par défaut dans le dépôt Ubuntu, et vous l’installerez via APT.

Pour commencer, exécutez la commande apt ci-dessous pour mettre à jour et rafraîchir les listes de paquets/dépôts sur votre système Ubuntu.

sudo apt update

Maintenant, installez le Java OpenJDK 11 via la commande apt ci-dessous. Dans le dépôt Ubuntu 22.04, le paquet ‘default-jdk’ fait référence à Java OpenJDK v11.

sudo apt install default-jdk

Lorsque vous y êtes invité, saisissez y pour confirmer et appuyez sur ENTRÉE pour continuer. L’installation de Java OpenJDK va commencer.

installer java

Après l’installation de Java, exécutez la commande ci-dessous pour vérifier la version de Java. Vous devriez obtenir le Java OpenJDK 11 installé sur votre système Ubuntu.

java -version

Maintenant que le Java OpenJDK est installé, vous allez configurer un nouvel utilisateur avec une authentification SSH sans mot de passe qui sera utilisé pour exécuter les processus et services Hadoop.

Configuration de l’utilisateur et de l’authentification SSH sans mot de passe

Apache Hadoop nécessite que le service SSH soit en cours d’exécution sur le système. Cela sera utilisé par les scripts Hadoop pour gérer le démon Hadoop distant sur le serveur distant. Dans cette étape, vous allez créer un nouvel utilisateur qui sera utilisé pour exécuter les processus et services Hadoop, puis configurer l’authentification SSH sans mot de passe.

Au cas où vous n’auriez pas SSH installé sur votre système, exécutez la commande apt ci-dessous pour installer SSH. Le paquet ‘pdsh‘ est un client de shell distant multithread qui vous permet d’exécuter des commandes sur plusieurs hôtes en mode parallèle.

sudo apt install openssh-server openssh-client pdsh

Maintenant, exécutez la commande ci-dessous pour créer un nouvel utilisateur ‘hadoop’ et configurer le mot de passe pour l’utilisateur ‘hadoop’.

sudo useradd -m -s /bin/bash hadoop  
sudo passwd hadoop

Saisissez le nouveau mot de passe pour l’utilisateur ‘hadoop‘ et répétez le mot de passe.

Ensuite, ajoutez l’utilisateur ‘hadoop’ au groupe ‘sudo‘ via la commande usermod ci-dessous. Cela permet à l’utilisateur ‘hadoop’ d’exécuter la commande ‘sudo’.

sudo usermod -aG sudo hadoop

Maintenant que l’utilisateur ‘hadoop’ est créé, connectez-vous à l’utilisateur ‘hadoop‘ via la commande ci-dessous.

su - hadoop

Après vous être connecté, votre invite deviendra comme ceci : “ hadoop@hostname.. “.

configuration utilisateur

Ensuite, exécutez la commande ci-dessous pour générer une clé SSH publique et privée. Lorsque vous êtes invité à configurer le mot de passe pour la clé, appuyez sur ENTRÉE pour passer.

ssh-keygen -t rsa

La clé SSH est maintenant générée dans le répertoire ~/.ssh. Le fichier id_rsa.pub est la clé publique SSH et le fichier ‘id_rsa’ est la clé privée.

générer clé ssh

Vous pouvez vérifier la clé SSH générée via la commande suivante.

ls ~/.ssh/

Ensuite, exécutez la commande ci-dessous pour copier la clé publique SSH ‘id_rsa.pub‘ dans le fichier ‘authorized_keys‘ et changer la permission par défaut à 600.

Dans ssh, le fichier ‘authorized_keys‘ est l’endroit où vous stockez la clé publique ssh, qui peut être plusieurs clés publiques. Quiconque possède la clé publique stockée dans le fichier ‘authorized_keys‘ et a la bonne clé privée pourra se connecter au serveur en tant qu’utilisateur ‘hadoop‘ sans mot de passe.

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  
chmod 600 ~/.ssh/authorized_keys

configuration ssh sans mot de passe

Avec la configuration SSH sans mot de passe terminée, vous pouvez vérifier en vous connectant à la machine locale via la commande ssh ci-dessous.

ssh localhost

Saisissez oui pour confirmer et ajouter l’empreinte SSH et vous serez connecté au serveur sans authentification par mot de passe.

connexion ssh sans mot de passe

Maintenant que l’utilisateur ‘hadoop‘ est créé et que l’authentification SSH sans mot de passe est configurée, vous allez passer à l’installation de Hadoop en téléchargeant le paquet binaire Hadoop.

Téléchargement de Hadoop

Après avoir créé un nouvel utilisateur et configuré l’authentification SSH sans mot de passe, vous pouvez maintenant télécharger le paquet binaire Apache Hadoop et configurer le répertoire d’installation pour celui-ci. Dans cet exemple, vous allez télécharger Hadoop v3.3.4 et le répertoire d’installation cible sera le répertoire ‘/usr/local/hadoop‘.

Exécutez la commande wget ci-dessous pour télécharger le paquet binaire Apache Hadoop dans le répertoire de travail actuel. Vous devriez obtenir le fichier ‘hadoop-3.3.4.tar.gz‘ dans votre répertoire de travail actuel.

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz

Ensuite, extrayez le paquet Apache Hadoop ‘hadoop-3.3.4.tar.gz’ via la commande tar ci-dessous. Ensuite, déplacez le répertoire extrait vers ‘/usr/local/hadoop‘.

tar -xvzf hadoop-3.3.4.tar.gz  
sudo mv hadoop-3.3.4 /usr/local/hadoop

Enfin, changez la propriété du répertoire d’installation de Hadoop ‘/usr/local/hadoop’ à l’utilisateur ‘hadoop‘ et au groupe ‘hadoop‘.

sudo chown -R hadoop:hadoop /usr/local/hadoop

télécharger hadoop

Dans cette étape, vous avez téléchargé le paquet binaire Apache Hadoop et configuré le répertoire d’installation de Hadoop. Avec cela à l’esprit, vous pouvez maintenant commencer à configurer l’installation de Hadoop.

Configuration des variables d’environnement Hadoop

Ouvrez le fichier de configuration ‘~/.bashrc‘ via la commande de l’éditeur nano ci-dessous.

nano ~/.bashrc

Ajoutez les lignes suivantes au fichier. Assurez-vous de placer les lignes suivantes à la fin du fichier.

# Variables d'environnement Hadoop  
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  
export HADOOP_HOME=/usr/local/hadoop  
export HADOOP_INSTALL=$HADOOP_HOME  
export HADOOP_MAPRED_HOME=$HADOOP_HOME  
export HADOOP_COMMON_HOME=$HADOOP_HOME  
export HADOOP_HDFS_HOME=$HADOOP_HOME  
export HADOOP_YARN_HOME=$HADOOP_HOME  
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native  
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin  
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Enregistrez le fichier et quittez l’éditeur lorsque vous avez terminé.

Ensuite, exécutez la commande ci-dessous pour appliquer les nouvelles modifications dans le fichier ‘~/.bashrc‘.

source ~/.bashrc

Après l’exécution de la commande, les nouvelles variables d’environnement seront appliquées. Vous pouvez vérifier en vérifiant chaque variable d’environnement via la commande ci-dessous. Et vous devriez obtenir la sortie de chaque variable d’environnement.

echo $JAVA_HOME  
echo $HADOOP_HOME  
echo $HADOOP_OPTS

Ensuite, vous allez également configurer la variable d’environnement JAVA_HOME dans le script ‘hadoop-env.sh‘.

Ouvrez le fichier ‘hadoop-env.sh’ en utilisant la commande de l’éditeur nano suivante. Le fichier ‘hadoop-env.sh’ est disponible dans le répertoire ‘$HADOOP_HOME‘, qui fait référence au répertoire d’installation de Hadoop ‘/usr/local/hadoop‘.

nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Décommentez la ligne d’environnement JAVA_HOME et changez la valeur pour le répertoire d’installation de Java OpenJDK ‘/usr/lib/jvm/java-11-openjdk-amd64‘.

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

Enregistrez le fichier et quittez l’éditeur lorsque vous avez terminé.

configuration java home

Avec la configuration des variables d’environnement, exécutez la commande ci-dessous pour vérifier la version de Hadoop sur votre système. Vous devriez voir Apache Hadoop 3.3.4 installé sur votre système.

hadoop version

version hadoop

À ce stade, vous êtes prêt à configurer et à déployer le cluster Hadoop, qui peut être déployé en plusieurs modes.

Configuration du cluster Apache Hadoop : Mode Pseudo-Distribué

Dans Hadoop, vous pouvez créer un cluster en trois modes différents :

Mode Local (Standalone) - installation Hadoop par défaut, qui est exécutée comme un seul processus Java et en mode non distribué. Avec cela, vous pouvez facilement déboguer le processus Hadoop.
Mode Pseudo-Distribué - Cela vous permet d’exécuter un cluster Hadoop en mode distribué même avec un seul nœud/serveur. Dans ce mode, les processus Hadoop seront exécutés dans des processus Java séparés.
Mode Entièrement Distribué - déploiement Hadoop important avec plusieurs, voire des milliers de nœuds/serveurs. Si vous souhaitez exécuter Hadoop en production, vous devez utiliser Hadoop en mode entièrement distribué.

Dans cet exemple, vous allez configurer un cluster Apache Hadoop avec le mode Pseudo-Distribué sur un seul serveur Ubuntu. Pour ce faire, vous allez apporter des modifications à certaines des configurations Hadoop :

core-site.xml - Cela sera utilisé pour définir le NameNode pour le cluster Hadoop.
hdfs-site.xml - Cette configuration sera utilisée pour définir le DataNode sur le cluster Hadoop.
mapred-site.xml - La configuration MapReduce pour le cluster Hadoop.
yarn-site.xml - Configuration ResourceManager et NodeManager pour le cluster Hadoop.

Configuration du NameNode et du DataNode

Tout d’abord, vous allez configurer le NameNode et le DataNode pour le cluster Hadoop.

Ouvrez le fichier ‘$HADOOP_HOME/etc/hadoop/core-site.xml‘ en utilisant l’éditeur nano suivant.

sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml

Ajoutez les lignes ci-dessous au fichier. Assurez-vous de changer l’adresse IP du NameNode, ou vous pouvez la remplacer par ‘0.0.0.0’ afin que le NameNode soit exécuté sur toutes les interfaces et adresses IP.

  
      
        fs.defaultFS  
        hdfs://192.168.5.100:9000

Enregistrez le fichier et quittez l’éditeur lorsque vous avez terminé.

Ensuite, exécutez la commande suivante pour créer de nouveaux répertoires qui seront utilisés pour le DataNode sur le cluster Hadoop. Ensuite, changez la propriété des répertoires DataNode à l’utilisateur ‘hadoop‘.

sudo mkdir -p /home/hadoop/hdfs/{namenode,datanode}  
sudo chown -R hadoop:hadoop /home/hadoop/hdfs

Après cela, ouvrez le fichier ‘$HADOOP_HOME/etc/hadoop/hdfs-site.xml’ en utilisant la commande de l’éditeur nano ci-dessous.

sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Ajoutez la configuration suivante au fichier. Dans cet exemple, vous allez configurer le cluster Hadoop sur un seul nœud, donc vous devez changer la valeur ‘dfs.replication’ à ‘1’. De plus, vous devez spécifier le répertoire qui sera utilisé pour le DataNode.

  
      
        dfs.replication  
        1  
      
     
      dfs.name.dir  
      file:///home/hadoop/hdfs/namenode  
     
     
      dfs.data.dir  
      file:///home/hadoop/hdfs/datanode

Enregistrez le fichier et quittez l’éditeur lorsque vous avez terminé.

Avec le NameNode et le DataNode configurés, exécutez la commande ci-dessous pour formater le système de fichiers Hadoop.

hdfs namenode -format

Vous recevrez une sortie comme celle-ci :

formater namednode

Ensuite, démarrez le NameNode et le DataNode via la commande suivante. Le NameNode sera exécuté sur l’adresse IP du serveur que vous avez configurée dans le fichier ‘core-site.xml’.

start-dfs.sh

Vous verrez une sortie comme celle-ci :

démarrer namenode datanode

Maintenant que le NameNode et le DataNode sont en cours d’exécution, vous allez vérifier les deux processus via l’interface web.

L’interface web du NameNode Hadoop fonctionne sur le port ‘9870‘. Donc, ouvrez votre navigateur web et visitez l’adresse IP du serveur suivie du port 9870 (c’est-à-dire : http://192.168.5.100:9870/).

Vous devriez maintenant obtenir la page comme la capture d’écran suivante - Le NameNode est actuellement actif.

namenode est en cours d'exécution

Maintenant, cliquez sur le menu ‘Datanodes’ et vous devriez obtenir le DataNode actuel qui est actif sur le cluster Hadoop. La capture d’écran suivante confirme que le DataNode fonctionne sur le port ‘9864‘ sur le cluster Hadoop.

liste datanode

Cliquez sur l’Adresse Http du DataNode et vous devriez obtenir une nouvelle page avec des informations détaillées sur le DataNode. La capture d’écran suivante confirme que le DataNode fonctionne avec le répertoire de volume ‘/home/hadoop/hdfs/datanode‘.

statut datanode

Avec le NameNode et le DataNode en cours d’exécution, vous allez ensuite configurer et exécuter MapReduce sur le gestionnaire Yarn (Yet Another ResourceManager et NodeManager).

Gestionnaire Yarn

Pour exécuter un MapReduce sur Yarn en mode pseudo-distribué, vous devez apporter quelques modifications aux fichiers de configuration.

Ouvrez le fichier ‘$HADOOP_HOME/etc/hadoop/mapred-site.xml‘ en utilisant la commande de l’éditeur nano suivante.

sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Ajoutez les lignes ci-dessous au fichier. Assurez-vous de changer le mapreduce.framework.name à ‘yarn’.

  
      
        mapreduce.framework.name  
        yarn  
      
      
        mapreduce.application.classpath  
        $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*

Enregistrez le fichier et quittez l’éditeur lorsque vous avez terminé.

Ensuite, ouvrez la configuration Yarn ‘$HADOOP_HOME/etc/hadoop/yarn-site.xml‘ en utilisant la commande de l’éditeur nano suivante.

sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Changez la configuration par défaut avec les paramètres suivants.

  
      
        yarn.nodemanager.aux-services  
        mapreduce_shuffle  
      
      
        yarn.nodemanager.env-whitelist  
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME

Enregistrez le fichier et quittez l’éditeur lorsque vous avez terminé.

Maintenant, exécutez la commande ci-dessous pour démarrer les démons Yarn. Et vous devriez voir à la fois ResourceManager et NodeManager démarrer.

start-yarn.sh

Le ResourceManager devrait fonctionner sur le port par défaut 8088. Retournez à votre navigateur web et visitez l’adresse IP du serveur suivie du port ResourceManager ‘8088’ (c’est-à-dire : http://192.168.5.100:8088/).

Vous devriez voir l’interface web du ResourceManager Hadoop. À partir de là, vous pouvez surveiller tous les processus en cours d’exécution à l’intérieur du cluster Hadoop.

Gestionnaire YARN Hadoop

Cliquez sur le menu Nodes et vous devriez obtenir le nœud en cours d’exécution actuel sur le cluster Hadoop.

liste des nœuds

Maintenant, le cluster Hadoop fonctionne en mode pseudo-distribué. Cela signifie que chaque processus Hadoop fonctionne comme un seul processus sur un serveur Ubuntu 22.04 à nœud unique, ce qui inclut le NameNode, le DataNode, MapReduce et Yarn.

Conclusion

Dans ce guide, vous avez installé Apache Hadoop sur un serveur Ubuntu 22.04 à machine unique. Vous avez installé Hadoop avec le mode Pseudo-Distribué activé, ce qui signifie que chaque composant Hadoop fonctionne comme un seul processus Java sur le système. Dans ce guide, vous avez également appris à configurer Java, à configurer les variables d’environnement système et à configurer l’authentification SSH sans mot de passe via une clé publique-privée SSH.

Ce type de déploiement Hadoop, le mode Pseudo-Distribué, est recommandé uniquement pour les tests. Si vous souhaitez un système distribué capable de gérer des ensembles de données moyens ou importants, vous pouvez déployer Hadoop en mode Cluster, ce qui nécessite plus de systèmes informatiques et offre une haute disponibilité pour votre application.

Prérequis

Installation de Java OpenJDK

Configuration de l’utilisateur et de l’authentification SSH sans mot de passe

Téléchargement de Hadoop

Configuration des variables d’environnement Hadoop

Configuration du cluster Apache Hadoop : Mode Pseudo-Distribué

Configuration du NameNode et du DataNode

Gestionnaire Yarn

Conclusion

Recevez de nouveaux articles dans votre boîte de réception.