Esta seção fornece informações sobre as configurações específicas solicitadas para instalar e configurar o CDH no Sentinel. Para obter informações detalhadas sobre a instalação e a configuração do CDH, consulte a versão certificada da documentação do Cloudera.
O Sentinel funciona com o Cloudera Express, a edição gratuita do CDH. O Sentinel também trabalha com o Cloudera Enterprise, que exige a compra de uma licença do Cloudera e inclui vários recursos não disponíveis na edição Cloudera Express. Se escolher começar com o Cloudera Express e mais tarde descobrir que precisa dos recursos disponíveis no Cloudera Enterprise, você poderá fazer upgrade do cluster após adquirir a licença do Cloudera.
Antes de instalar o CDH, você deve configurar os hosts de acordo com os seguintes pré-requisitos:
Conclua os pré-requisitos mencionados na documentação do Cloudera.
Use o ext4 ou o sistema de arquivos XFS para obter melhor desempenho.
O CDH precisa de alguns pacotes do sistema operacional que não são instalados por padrão. Portanto, você deve montar o respectivo DVD do sistema operacional. As instruções de instalação do Cloudera orientam sobre pacotes a serem instalados.
Para sistemas operacionais do SLES, o CDH exige o pacote python-psycopg2. Instale o pacote python-psycopg2. Para obter mais informações, consulte a documentação do openSUSE.
Se você estiver usando máquinas virtuais, reserve o espaço em disco necessário no sistema de arquivos ao criar nós de máquinas virtuais. Por exemplo, no VMware, é possível usar o aprovisionamento significativo.
Verifique se os nós de cluster do Sentinel e CDH estão no mesmo fuso horário.
Defina a troca/transferência de todos os hosts como 1 no arquivo /etc/sysctl.conf adicionando a seguinte entrada:
vm.swappiness=1
Para aplicar essa configuração imediatamente, execute o comando a seguir:
sysctl -p
A versão do JDK no CDH deve ser pelo menos a mesma versão do JDK usada no Sentinel. Se a versão do JDK disponível no CDH for inferior ao JDK do Sentinel, você deverá seguir as instruções para instalar o JDK manualmente em vez de instalar o JDK disponível no repositório do CDH.
Instale o JDK usando o arquivo binário (.tar.gz) porque a instalação de RPM do JDK RPM causa problemas ao usar o script manage_spark_jobs.sh para enviar tarefas do Spark no YARN.
Para determinar a versão do JDK usada no Sentinel, consulte Sentinel Release Notes (Detalhes da versão do Sentinel).
Instale a versão certificada do CDH. Para obter mais informações sobre a versão certificada do CDH, consulte a página Technical Information for Sentinel (Informações técnicas do Sentinel). Consulte a versão certificada da documentação do Cloudera para obter instruções de instalação.
Enquanto instala o CDH, execute o seguinte:
(Condicional) Se a instalação falhar durante a instalação do banco de dados PostgreSQL incorporado, execute as etapas a seguir:
mkdir -p /var/run/postgresql
sudo chown cloudera-scm:cloudera-scm /var/run/postgresql
Ao escolher o tipo de instalação do software na janela Selecionar Repositório, verifique se a opção Usar Pacotes está marcada e selecione o Kafka em Pacotes Adicionais.
Ao adicionar serviços, certifique-se de habilitar os seguintes serviços:
Cloudera Manager
ZooKeeper
HDFS
HBase
YARN
Spark
Kafka
NOTA:O servidor de histórico Spark e o HDFS NameNode devem ser instalados no mesmo nó para garantir a confiabilidade do sistema. Para obter informações sobre a arquitetura do armazenamento escalável, consulte Planejando o armazenamento escalável.
Ao ativar os serviços acima, configure a Alta Disponibilidade para os seguintes:
HBase HMaster
HDFS NameNode
YARN ResourceManager
(Condicional) Se o instalador não implantar a configuração do cliente devido à ausência de caminho Java, abra uma nova sessão do browser e atualize manualmente o caminho Java da seguinte maneira:
Clique em Hosts > Todos os Hosts > Configuração e especifique o caminho correto no campo Diretório Pessoal do Java.