CDH大数据平台
一、概述
Hadoop 比较流行的主要有 2 个版本,Apache 和 Cloudera(CDH)版本,CDH 基于 Apache Hadoop 二次开发,优化了组件兼容和交互接口、简化安装配置、提供界面统一管理程序,更适合生产环境使用。而且哪怕你用不到大苏韩剧的其他相关组件,用 CDH 来管理 zookeeper 和 kafka 也是相当不错的,当然,管理 kafka 集群有更好的选择:Cruise Control,这个另说了,我们这里应用一下 cdh。
注:CDH5 和 CDH6 可能有所出入,以下内容均基于 CDH6.2。
二、安装部署
关于 CDH 的安装部署网上很多资料,这里就不逐步细说了,这里只参考其中一篇做出部分补充说明。
- 详细步骤参考:cdh6.2 部署
- 环境 + 节点准备:
- 节点:最小的就两个 agent,一个 server+agent;没有内网 DNS 服务器的话各主机添加 hosts,关闭防火墙、SElinux、配置时间同步、禁用透明大页面压缩、优化交换分区、挂载数据盘;
- 环境:默认的话就是 MySQL/MariaDB,可以使用外部 pgsql 增强可用性,也是本文采取的方式:安装外部 postgresql 存储相关数据。
- 安装:
- 在线安装(国内不建议,文件大速度慢)
- 下载 yum 源、导入认证信息后,agent 端执行:
yum install cloudera-manager-agent
- server 端执行:
yum install cloudera-manager-agent yum install cloudera-manager-server
- 离线安装
- 下载 rpm 包:下载地址
- 执行
yum localinstall xxx
安装即可
-
初始化配置:
- 不论是使用 mysql 或者是 pgsql 作为外部存储,数据库及账户都需要手动创建;如无特殊需求,只用 zk 和 kafka 的话,只要一个 scm 库和 scm 用户即可;
- 执行初始化(这里以外部 postgresql 为例):
/opt/cloudera/cm/schema/scm_prepare_database.sh postgresql -h 10.52.114.3 --scm-host cdh-server-hostname scm scm
- 修改 agent 配置文件
/etc/cloudera-scm-agent/config.ini
中的server_host
为 server 节点的主机名; - 先启动 server
systemctl restart cloudera-scm-server # 添加自启动 systemctl enable cloudera-scm-server
- 再逐个启动 agent:
systemctl restart cloudera-scm-agent # 添加自启动 systemctl enable cloudera-scm-agent
- (可选)可以直接通过 server 节点的 7180 端口访问控制台,也可以安装 nginx 代理访问,给出一个 nginx 示例配置文件:
upstream cdh { server 10.156.0.10:7180; keepalive 20; } server { listen 80; server_name cdh.demo.com; access_log /var/log/nginx/cdh.access.log; error_log /var/log/nginx/cdh.error.log; location / { proxy_set_header Connection ""; proxy_pass http://cdh; client_max_body_size 10m; client_body_buffer_size 2560k; add_header Access-Control-Allow-Origin *; add_header Access-Control-Allow-Headers X-Requested-With; add_header Access-Control-Allow-Methods GET,POST,OPTIONS; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; proxy_set_header Refer $http_referer; } }
- 访问控制台,默认账户 admin 密码 admin,按提示一步一步执行即可(最好先安装 zk,再安装 kafka),安装过程中注意修改数据存储目录为之前挂载的数据盘路径。