13.1 CDHのインストールと設定

このセクションでは、CDHのインストールおよび設定時にSentinelに必要な特定の設定について説明します。CDHのインストールと設定の詳細については、Clouderaの認定バージョンのマニュアルを参照してください。

SentinelはCDHの無料版であるCloudera Expressで動作します。SentinelはCloudera Enterpriseとも連携します。これにはClouderaからのライセンス購入が必要ですが、Cloudera Expressエディションでは使用できないさまざまな機能が含まれています。Cloudera Expressで開始すると決定し、後でCloudera Enterpriseの機能が必要であると判明した場合は、Clouderaからライセンスを購入した後でクラスタをアップグレードすることができます。

13.1.1 前提条件

CDHをインストールする前に、次の前提条件に従ってホストを設定する必要があります。

  • Clouderaのマニュアルで説明されている前提条件を満たします。

  • パフォーマンス向上のため、ext4またはXFSファイルシステムを使用します。

  • CDHではデフォルトでインストールされないオペレーティングシステムパッケージがいくつか必要です。そのため、それぞれのオペレーティングシステムのDVDをマウントする必要があります。インストールするパッケージについては、Clouderaのインストール手順で示します。

  • CDHでは、SLESオペレーティングシステムにpython-psycopg2パッケージが必要です。python-psycopg2パッケージをインストールします。詳細については、openSUSEのマニュアルを参照してください。

  • 仮想マシンを使用する場合は、仮想マシンのノードを作成するときに、必要なディスク容量をファイルシステムに確保します。たとえば、VMwareでシックプロビジョニングを使用できます。

  • SentinelとCDHクラスタノードのタイムゾーンが同じであることを確認します。

  • /etc/sysctl.confファイルで、次のエントリを追加してすべてのホストのswappinessを1に設定します。

    vm.swappiness=1

    この設定をすぐに適用するには、次のコマンドを実行します。

    sysctl -p
  • CDHのJDKバージョンは、最低限、Sentinelで使用されているものと同じJDKバージョンである必要があります。CDHで使用できるJDKバージョンがSentinel JDKのバージョンより低い場合、CDHリポジトリで使用可能なJDKをインストールするのではなく、次の手順に従ってJDKを手動でインストールする必要があります。

    manage_spark_jobs.shスクリプトを使用してSparkジョブをYARNで送信するとJDK RPMのインストールでエラーが発生するため、アーカイブバイナリファイル(.tar.gz)を使用してJDKをインストールしてください。

    Sentinelで使用されているJDKバージョンを判別するには、Sentinelリリースノートを参照してください。

13.1.2 CDHのインストールと設定

CDHの認定バージョンをインストールします。CDHの認定バージョンの詳細は、『Technical Information for Sentinel』ページを参照してください。インストールの手順については、Clouderaのマニュアルで認定バージョンを参照してください。

CDHのインストール中に、次を実行します。

  • (条件による)内蔵PostgreSQLデータベースのインストール中にインストールエラーが発生する場合、次の手順を実行します。

    mkdir -p /var/run/postgresql

    sudo chown cloudera-scm:cloudera-scm /var/run/postgresql

  • Select Repository(リポジトリ選択)] ウィンドウでソフトウェアインストールの種類を選択するときに、[Use Parcels(パーセルを使用)]が選択されていることを確認し、[Additonal Parcels(追加パーセル)]でKafkaを選択します。

  • サービスを追加する場合は、次のサービスを必ず有効にします。

    • Cloudera Manager

    • ZooKeeper

    • HDFS

    • HBase

    • YARN

    • Spark

    • Kafka

    メモ:Spark履歴サーバとHDFS NameNodeはシステム信頼性の面から、同じノードにインストールする必要があります。スケーラブルストレージアーキテクチャの詳細については、スケーラブルストレージのプラニングを参照してください。

    上記のサービスを有効にする場合、次の高可用性を設定します。

    • HBaseのHMaster

    • HDFSのNameNode

    • YARNのResourceManager

  • (条件による)Javaパスがないためにインストーラでクライアントの環境設定が展開されない場合、新しいブラウザセッションを開き、次のように手動でJavaパスを更新します。

    Hosts(ホスト)]>[All Hosts(すべてのホスト)]>[Configuration(環境設定)]をクリックし、[Java Home Directory(Javaホームディレクトリ)]フィールドで正しいパスを指定します。