Setup Hadoop Cluster in 2020

2020/4/17

2020 年了，为什么还是 Hadoop

第一个问题就是，都已经 2020 年了，为什么还是 Hadoop？这玩意都出来这么多年了，难道就没有新的产品和技术吗？ Hadoop 虽然已经出来那么多年了，是一个老产品，但是 Hadoop 也不是当年的 Hadoop，现在更像是一个生态系统，基于 Hadoop 的框架构建的各个产品和技术层出不穷，但是 HDFS 还是那个 HDFS，学一下背后的细想，更有利于理解和掌握整个体系。

搭建 Linux 集群

我选了 Ubuntu 系统，找了 3 台机器，1 个master， 2 个 slave。首先登陆机器，修改主机名，在 ubuntu 上修改的是 /etc/hostname 的配置，各自修改为 master, slave, slave2。然后修改 /etc/hosts 文件，配置上 ip 地址和各个别名。 3 台机器都要配置。

10.0.2.4 master
10.0.2.7 slave
10.0.2.6 slave2

配置好别名之后，需要配置 master 和 slaves 之间的 ssh 免密登陆, 用 root 账户创建一个一致的叫做 hadoop 的账户，

useradd -m hadoop
passwd hadoop # 设置个密码

在 master 机器上，切换到 hadoop 用户，生成 SSH 公钥

ssh-keygen -t rsa

然后将公钥发送到各个 slave 节点上，包括自己

ssh-copy-id -i ~/.ssh/id_rsa.pub 
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave2

这时候可以试一下 ssh 免密登陆

ssh master
ssh slave
ssh slave2

应该能直接 ssh 到对应的机器上去了

安装 JDK 和 Hadoop

下载 JDK 1.8 和 Hadoop 2.10.0，我把这两个都放在 /opt 目录下，并且把 /opt 目录的所有权修改为 hadoop（slave 节点也修改所有者）

chown -R hadoop /opt

修改 /etc/profile 文件，在末尾添加

export JAVA_HOME=/opt/jdk1.8.0_241
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/opt/hadoop-2.10.0
export PATH=$PATH:$HADOOP_HOME/bin

配置 Hadoop，修改的文件都位于 /opt/hadoop-2.10.0/etc/hadoop/ 目录下，修改 hadoop-env.sh 文件, 在末尾添加

export JAVA_HOME=/opt/jdk1.8.0_241
export HADOOP_HOME=/opt/hadoop-2.10.0

修改 hdfs-site.xml, 修改：

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
	<property>
		<name>dfs.name.dir</name>
		<value>/opt/hdfs/name</value>
	</property>
	<property>
		<name>dfs.data.dir</name>
		<value>/opt/hdfs/data</value>
	</property>
</configuration>

修改 mapred-site.xml:

<configuration>

	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>

</configuration>

修改 yarn-site.xml:

<configuration>

<!-- Site specific YARN configuration properties -->
<property>
	<name>yarn.resourcemanager.address</name>
	<value>master:8080</value>
</property>

<property>
	<name>yarn.resourcemanager.resource-tracker.address</name>
	<value>master:8082</value>
</property>
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>
<property>
	<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
	<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>



</configuration>

再修改 slaves 文件, 里面配置 slave 节点的别名

slave
slave1

把修改后的 hadoop 复制到所有的 slave 节点上，

scp -r /opt/hadoop-2.10.0/ hadoop@slave:/opt
scp -r /opt/hadoop-2.10.0/ hadoop@slave2:/opt

格式化 HDFS

hadoop namenode -format

在 hadoop 安装目录下，sbin 目录里有各个文件的启动脚本，

./start-dfs.sh
./start-yarn.sh

启动过程会看到:

starting yarn daemons
starting resourcemanager, logging to /opt/hadoop-2.10.0/logs/yarn-hadoop-resourcemanager-master.out
slave: starting nodemanager, logging to /opt/hadoop-2.10.0/logs/yarn-hadoop-nodemanager-slave.out
slave2: starting nodemanager, logging to /opt/hadoop-2.10.0/logs/yarn-hadoop-nodemanager-slave2.out

应该就启动成功，

一个 Hadoop Cluster 就装好了

2020 年了，为什么还是 Hadoop

搭建 Linux 集群

安装 JDK 和 Hadoop

格式化 HDFS

Comments