Install Pseudo-Distribute Cluster

前面已经介绍如何配置一个真实的 Hadoop Cluster,可用于生产环境,但在实际开发中,为了在有限的硬件资源上方便调试,往往通过一台本地的虚拟机搭建一个「伪群」。

环境准备

1. OS

Ubuntu Server 14.10, 32 bit,建议安装32位的系统,方便,不用手动编译 Hadoop. 本站已有记录,参这里

2. JDK

Java SE Development Kit 8u25

本站已有记录,参这里

3. ssh

安装并设置免密码认证,本站已有记录,参这里

4. 网络设置

其他机器能访问到就行。如果是通过 VitualBox 安装的虚拟机,应该设置成 Host-Only 或桥接模式。

安装 Hadoop

1. 下载解压

官网下载并解压,移动到合适的位置。本例移动到:

/home/hadoop/hadoop-2.6.0

2. 设置 .bashrc

在文件末尾加上:

#Hadoop variables 
export HADOOP_INSTALL=/home/hadoop/hadoop-2.6.0 # 此处路径以实际情况为准
export PATH=$PATH:$HADOOP_INSTALL/bin 
export PATH=$PATH:$HADOOP_INSTALL/sbin 
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL 
export HADOOP_COMMON_HOME=$HADOOP_INSTALL 
export HADOOP_HDFS_HOME=$HADOOP_INSTALL 
export YARN_HOME=$HADOOP_INSTALL 
export HADOOP_CONF_DIR="$HADOOP_COMMON_HOME/etc/hadoop" 
###end of paste

保存退出,执行

source .bashrc

使设置生效

3. 创建数据目录

$ mkdir -p ~/mydata/hdfs/namenode
$ mkdir -p ~/mydata/hdfs/datanode
$ mkdir -p $HADOOP_INSTALL/tmp

4. 修改配置文件

这些配置文件都位于 {hadoop home}/etc/hadoop 中,hadoop-env.sh 和 yarn-env.sh 的 JAVA_HOME 在这个版本已经设置好了,不用设置。

core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

5. 启动

安装 Hadoop 集群的记录即可。

再次强调,首次启动前要执行格式化操作,否则用不了。

官方参考:

http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/SingleCluster.html