【hadoop-1.0】hadoop-0.20.2安装及简单使用 - 重生の记忆 - ITeye博客

`

MrLee23

浏览: 400081 次
性别:
来自: 北京

最近访客更多访客>>

纯情白开水

xiaohou12345

city6789

zhqsb1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wangyudong：由Spring Boot实现的微服务需要有比较好的工具去测试R ...
使用Spring Boot快速构建应用
masuweng： <artifactId>maven-compile ...
使用Spring Boot快速构建应用
masuweng：说明下<start-class>com.test. ...
使用Spring Boot快速构建应用
masuweng：学习了,感谢了
使用Spring Boot快速构建应用
幽蓝星空：执行mvn clean install spring-boot ...
使用myeclipse打包Spring Boot工程

【hadoop-1.0】hadoop-0.20.2安装及简单使用

博客分类：

hadoop-1.0

阅读更多

我是初学者，文章只是记录我的学习过程，有很多不足或是错误，请大家谅解并指正，真心希望多和大家交流~

安装步骤如下：

1.1 机器说明

总共有4台机器：sc706-26、sc706-27、sc706-28、sc706-29

IP地址分别为：192.168.153.89、192.168.153.90、192.168.153.91、192.168.153.92

操作系统为：Linux的fedora12

jdk版本为：jdk-6u19-linux-i586

hadoop版本为：hadoop-0.20.2

sc706-26作为NameNode、JobTracker，其他三台作为DataNode、TaskTracker

1.2 用机器名Ping通机器

用root登录，修改NameNode和DataNode上的/etc/hosts文件，加入四台机器的IP地址和机器名，如下：

192.168.153.89 sc706-26

192.168.153.90 sc706-27

192.168.153.91 sc706-28

192.168.153.92 sc706-29

设置好后验证下各机器间是否ping通，用机器名或是IP地址都可以，例如ping sc706-27或ping 192.168.153.90

1.3 新建hadoop用户

Hadoop要求所有机器上hadoop的部署目录结构要相同并且有一个相同的用户名的帐户，我的默认路径为/home/hadoop

1.4 ssh设置及关闭防火墙（需要用到root，su - ）

1）fedora装好后默认启动sshd服务，如果不确定的话可以查一下 [root@sc706-26 hadoop]# service sshd status

如没有启动的话，先启动 [root@sc706-26 hadoop]# service sshd start

建立ssh无密码登录，在NameNode上 [hadoop@sc706-26 ~]$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

会在~/.ssh/生成两个文件：id_dsa和id_dsa.pub，这两是成对出现的，把id_dsa.pub文件追加到DataNode上的authorized_keys

[hadoop@sc706-26 ~]$ scp id_dsa.pub sc706-27:/home/hadoop/ (注意其中目标机器后面的：与要传到的文件路径之间没有空格，即sc706:与/home/hadoop/之间没有空格)

scp id_dsa.pub sc706-28:/home/hadoop/

scp id_dsa.pub sc706-29:/home/hadoop/

登录到DataNode上，[hadoop@sc706-27 ~]$ cat id_dsa.pub >> ~/.ssh/authorized_keys ，其余两台一样，NameNode上也要追加。注意：追加完后必须修改NameNode和DataNode上的.ssh和authorized_keys的权限，chmod命令，参数755，完成后测试下，例如ssh sc706-27时不需要密码就可以登录，就可以知道ssh设置成功。

2）关闭防火墙（NameNode和DataNode都必须关闭）

[root@sc706-26 ~]# service iptables stop

注意：每次重新开机启动hadoop前都必须关闭

1.5 安装jdk1.6(几台机子都一样)
在官网http://java.sun.com下载jdk-6u19-linux-i586.bin，之后直接安装[root@sc706-26 java]#chmod +x jdk-6u19-linux-i586.bin [root@sc706-26 java]# ./jdk-6u19-linux-i586.bin，我的安装路径为：/usr/java/jdk1.6.0_19，安装后添加如下语句到/etc/profile中：

export JAVA_HOME=/usr/java/jdk1.6.0_19

export JRE_HOME=/usr/java/jdk1.6.0_19/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

1.6 安装hadoop

在官网http://apache.etoak.com//hadoop/core/下载hadoop-0.20.2.tar.gz

[hadoop@sc706-26 ~]$ tar xzvf hadoop-0.20.2.tar.gz

将hadoop的安装路径添加到/etc/profile中：

export HADOOP_HOME=/home/hadoop/hadoop-0.20.2

export PATH=$HADOOP_HOME/bin:$PATH

为了让/etc/profile生效，source一下 [hadoop@sc706-26 ~]$ source /etc/profile

1.7 配置hadoop

其配置文件在/conf目录下

1）配置JAVA环境

[hadoop@sc706-26 ~]$ vim hadoop-0.20.2/conf/hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.6.0_19

2）配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件

[hadoop@sc706-26 ~]$ vim hadoop-0.20.2/conf/core-site.xml

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/tmp</value>

</property>

<property>

<name>fs.default.name</name>

<value>hdfs://sc706-26:9000</value>

</property>

</configuration>

[hadoop@sc706-26 ~]$ vim hadoop-0.20.2/conf/mapred-site.xml

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>hdfs://sc706-26:9001</value> 注意：sc706-26前能不能加hdfs://不太清楚，本人配了两个集群，一个加了一个不加都能用

</property>

</configuration>

[hadoop@sc706-26 ~]$ vim hadoop-0.20.2/conf/hdfs-site.xml

<configuration>

<property>

<name>dfs.name.dir</name>

<value>/home/hadoop/name</value>

</property>

<property>

<name>dfs.data.dir</name>

<value>/home/hadoop/data</value>

</property>

<property>

<name>dfs.replication</name>

<value>3</value>注意：如果设为1，数据只有一个副本，假如其中一个datanode出问题，将会导致整个job失败

</property>

</configuration>

3）将NameNode上完整的hadoop拷贝到DataNode上，可先将其进行压缩后直接scp过去或是用盘拷贝过去

4）配置NameNode上的conf/masters和conf/slaves

masters:192.168.153.89

slaves:192.168.153.90

192.168.153.91

192.168.153.92

1.8 运行hadoop

1）格式化文件系统

[hadoop@sc706-26 hadoop-0.20.2]$ hadoop namenode -format

注意：格式化时要防止NameNode的namespace ID与DataNode的namespace ID的不一致，因为每格式化一次会产生Name、Data、tmp等临时文件记录信息，多次格式化会产生很多，会导致ID的不同，造成hadoop不能运行

2）启动hadoop

[hadoop@sc706-26 hadoop-0.20.2]$ bin/start-all.sh

3）用jps命令查看进程，NameNode上的结果如下：

25325 NameNode

25550 JobTracker

28210 Jps

25478 SecondaryNameNode

4）查看集群状态

[hadoop@sc706-26 hadoop-0.20.2]$ hadoop dfsadmin -report

确保运行的DataNode个数是正确的，我的是3个，这样可以查看哪个DataNode没有运行

5）用hadoop的web方式查看

[hadoop@sc706-26 hadoop-0.20.2]$ links http://192.168.153.89（即为master）:50070

1.9 运行Wordcount.java程序

1）先在本地磁盘上建立两个文件f1和f2

[hadoop@sc706-26 ~]$ echo ”hello Hadoop goodbye hadoop” > f1

[hadoop@sc706-26 ~]$ echo ”hello bye hadoop hadoop” > f2

2）在hdfs上建立一个input目录

[hadoop@sc706-26 ~]$ hadoop dfs -mkdir input

3）将f1和f2拷贝到hdfs的input目录下

[hadoop@sc706-26 ~]$ hadoop dfs -copyFromLocal /home/hadoop/f* input

4）查看hdfs上有没有input目录

[hadoop@sc706-26 ~]$ hadoop dfs -ls

5)查看input目录下有没有复制成功f1和f2

[hadoop@sc706-26 ~]$ hadoop dfs -ls input

6)执行wordcount（确保hdfs上没有output目录）

[hadoop@sc706-26 hadoop-0.20.2]$ hadoop jar hadoop-0.20.2-examples.jar wordcount input output

7）运行完成，查看结果

[hadoop@sc706-26 hadoop-0.20.2]$ hadoop dfs -cat output/part-r-00000

分享到：

【hadoop-1.0】：启动hadoop时，log中出现 ... | java代码片段

2014-01-27 03:28
浏览 3753
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop-0.20.2安装手册: 文章介绍了hadoop-0.20.2安装手册以及相关的使用方法

hadoop-core-0.20.2 源码 hadoop-2.5.1-src.tar.gz 源码 hadoop 源码: 可以导进去编程的时候了解实现 hadoop-core-0.20.2 源码 hadoop-2.5.1-src.tar.gz 源码

hadoop-0.20.2-eclipse-plugin.jar: hadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-pluginhadoop-0.20.2-eclipse-plugin

基于hadoop-0.20.2的FTP服务器: 基于apache发布的FTPserver实现的基于hadoop-0.20.2的FTP服务器，可以直接使用，但要进行hadoop网址的基本配置，另外只有一个匿名用户，除了几个我设定的系统文件夹不能删除外，基本具有所有权限。当然，您可以在此...

hadoop-mrunit-0.20.2-cdh3u4.jar: 用于hadoop单元测试的jar包 hadoop-mrunit-0.20.2-cdh3u4.jar

hadoop-core-0.20.2-cdh3u3.jar: export CLASSPATH="$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:${HADOOP_HOME}/lib/commons-logging-1.0.4.jar:${HADOOP_HOME}/lib/guava-r09-jarjar.jar:${HADOOP_HOME}/hadoop-core-0.20.2-cdh3u3.jar:/usr/...

在Ubunt-11.04上布署hadoop-0.20.2集群云平台: 这是我在在Ubunt-11.04上成功搭建hadoop-0.20.2集群云平后，写出来的实验指导，确实可用。我同实验室的同学按时这个实验指导已经成功做成了。

Linux环境下hadoop-0.20.2资源下载: Hadoop-0.20.2版本的hadoop是比较老的版本，但是很多教程中都是以hadoop-0.20.2为例子讲述的，所以我在这里分享一下，供大家下载！

hadoop-0.20.2-cdh3u6.rar: hadoop-0.20.2-cdh3u6.rar

hadoop-0.20.2帮助文档: hadoop-0.20.2的chm帮助文档

hadoop-0.20.2安装配置: hadoop-0.20.2的安装配置，其他环境为JDK1.7.0_25,Ubuntu-12.04

hadoop-0.20.2-CDH3B4.tar.gz下载: 把压缩文件解压之后可以防止sqoop-1.2.0版本下的lib中，使得sqoop在安装了hadoop-0,20,2版本的hadoop环境下也能运行。

hadoop-0.20.2-eclipse-plugin　插件: hadoop-0.20.2-eclipse-plugin　经典插件

hadoop-eclipse-plugin-0.20.2-cdh3u4.jar: 在Windows下连接远程Hadoop集群时，注意本地要安装cygwin，并将cygwin/bin目录设置到PATH，以便程序能使用chmod命令。另，Hadoop Eclipse插件只能连接相应版本的Hadoop集群，例如，本插件只能连接hadoop-0.20.2-cdh...

hadoop-core-0.20.2.jar.zip: eclipse环境下hadoop的导入的关键包，方便使用编写，修改hadoop算法，以及导出应用

hadoop安装: 1.a1 192.168.9.1 (master) a2 192.168.9.2 (slave1) a3 192.168.9.3 (slave2) 修改/etc/hosts 2.3台机器创建hadoop 用户 ...[hadoop@a1 hadoop-0.20.2-cdh3u5]$ bin/hadoop dfsadmin -report

hadoop-eclipse-plugin-0.20.2-cdh3u6.jar: 最新CDH3u6在eclipse JUNO 下编译的插件，已测正常。不保证在其他eclipse版本下正常工作。

hadoop-0.20.2.tar.gz: Hadoop安装包,适用于linux，内含eclipse插件.

hadoop-0.20.2-cdh3u6: hadoop-0.20.2-cdh3u6 cloudera

Global site tag (gtag.js) - Google Analytics