13.1 Installation und Konfiguration von CDH

In diesem Abschnitt werden die speziellen Sentinel-Einstellungen für die Installation und Konfiguration von CDH erläutert. Ausführliche Informationen zur Installation und Konfiguration von CDH finden Sie in der zertifizierten Version der Cloudera-Dokumentation.

Sentinel ist mit Cloudera Express, der kostenlosen CDH-Version, kompatibel. Das ebenfalls kompatible Cloudera Enterprise enthält zahlreiche Funktionen, die in Cloudera Express nicht verfügbar sind, allerdings erfordert es den Kauf einer entsprechenden Lizenz. Wenn Sie bei der Arbeit mit Cloudera Express feststellen, dass Sie auf die Funktionen von Cloudera Enterprise nicht verzichten möchten, können Sie mit dem Erwerb einer entsprechenden Cloudera-Lizenz das Cluster aufrüsten.

13.1.1 Voraussetzungen

Vor der Installation von CDH müssen Sie die Hosts nach den folgenden Vorgaben einrichten:

  • Erfüllen Sie alle Bedingungen, die in der Cloudera-Dokumentation aufgeführt sind.

  • Nutzen Sie das ext4- oder XFS-Dateisystem zur Leistungssteigerung.

  • CDH erfordert einige Betriebssystempakete, die nicht standardmäßig installiert werden. Legen Sie daher die entsprechende Betriebssystem-DVD ein. In der Cloudera-Installationsanleitung finden Sie Informationen zu den Paketen, die zu installieren sind.

  • CDH erfordert für SLES-Betriebssysteme das Paket python-psycopg2. Installieren Sie das Paket python-psycopg2. Weitere Informationen finden Sie in der openSUSE-Dokumentation.

  • Sollten Sie virtuelle Maschinen nutzen, reservieren Sie im Dateisystem den nötigen Speicherplatz, wenn Sie VM-Knoten erstellen. Im Fall von VMware können Sie beispielweise Thick Provisioning wählen.

  • Stellen Sie sicher, dass Sentinel und die CDH-Clusterknoten in der gleichen Zeitzone liegen.

  • Legen Sie den „Swappiness“-Parameter aller Hosts in der Datei /etc/sysctl.conf mit „1“ fest. Machen Sie dazu den folgenden Eintrag:

    vm.swappiness=1

    Führen Sie dann diesen Befehl aus, um die Einstellung umgehend anzuwenden:

    sysctl -p
  • Die JDK-Version in CDH muss dieselbe JDK-Version (oder höher) sein, die in Sentinel verwendet wird. Wenn die in CDH verfügbare JDK-Version älter ist als die in Sentinel, installieren Sie das JDK gemäß der Anleitung manuell, aber nicht das JDK, das im CDH-Repository verfügbar ist.

    Installieren Sie das JDK mithilfe der Archiv-Binärdatei (.tar.gz), denn wenn Sie es per RPM installieren, kann dies Probleme verursachen, wenn Sie versuchen, Spark-Jobs unter YARN mithilfe des Skripts manage_spark_jobs.sh abzusenden.

    Die in Sentinel verwendete JDK-Version finden Sie in den Versionshinweisen zu Sentinel.

13.1.2 Installation und Konfiguration von CDH

Installieren Sie die zertifizierte Version von CDH. Weitere Informationen zur zertifizierten CDH-Version finden Sie auf der Seite Technical Information for Sentinel (Technische Informationen für Sentinel). Eine Installationsanleitung finden Sie in der zertifizierten Version der Cloudera-Dokumentation.

Achten Sie bei der CDH-Installation auf Folgendes:

  • (Bedingt) Wenn die Installation während der Installation der eingebetteten PostgreSQL-Datenbank fehlschlägt, führen Sie die folgenden Schritte aus:

    mkdir -p /var/run/postgresql

    sudo chown cloudera-scm:cloudera-scm /var/run/postgresql

  • Aktivieren Sie bei der Auswahl des Software-Installationstyps im Fenster Select Repository (Repository auswählen) die Optionen Use Parcels (Pakete verwenden) und „Kafka“ in Additional Parcels (Weitere Pakete).

  • Aktivieren Sie beim Hinzufügen von Services die folgenden:

    • Cloudera Manager

    • ZooKeeper

    • HDFS

    • HBase

    • YARN

    • Spark

    • Kafka

    HINWEIS:Installieren Sie Spark History Server und HDFS NameNode in demselben Knoten, um die Systemstabilität zu gewährleisten. Informationen zur Architektur des skalierbaren Speichers finden Sie in Planen des skalierbaren Speichers.

    Beim Aktivieren der oben genannten Services muss für folgende Elemente Hochverfügbarkeit konfiguriert werden:

    • HBase HMaster

    • HDFS NameNode

    • YARN ResourceManager

  • (Bedingt) Wenn das Installationsprogramm die Client-Konfiguration wegen eines fehlenden Java-Pfads nicht bereitstellt, starten Sie eine neue Browsersitzung und aktualisieren Sie den Java-Pfad manuell wie folgt:

    Klicken Sie auf Hosts > All Hosts > Configuration (Host > Alle Hosts > Konfiguration) und geben Sie im Feld Java Home Directory (Java-Basisverzeichnis) den korrekten Pfad an.