第一次使用hadoop,另外eclipse也不太熟悉,现在把自己在安装过程中得琐碎问题记录下来。
eclipse版本:eclipse-jee-indigo-sr2-linux-gtk.tar.gz
hadoop版本:hadoop-0.20.203.0
本文前提是,你已经正确安装了hadoop-0.20.203.0,hadoop伪分布模式的安装过程网上有很多。
eclipse下载解压后,直接点击eclipse图标打开即可(很绿色环保~~)
1.插件安装
在$hadoop_home/contrib/eclipse-plugin/文件夹中有个hadoop-eclipse-plugin-0.20.203.0.jar,把这个文件复制到eclipse/plugins(这是eclipse的插件目录)下面即可。
注意在直接复制时会出错,主要是缺少jar包。
(2)修改hadoop-0.20.203.0-eclipse-plugin/meta-inf/manifest.mf 中的bundle-classpath项
1
<code>bundle-classpath: classes/,lib/hadoop-core.jar,lib/commons-cli-1.2.jar,lib/commons-httpclient-3.0.1.jar,lib/jackson-core-asl-1.0.1.jar,lib/jackson-mapper-asl-1.0.1.jar,lib/commons-configuration-1.6.jar,lib/commons-lang-2.4.jar</code>
2.环境配置
启动eclipse,然后在window->preferences->hadoop map/reduce中添加hadoop的安装目录
配置hadoop环境:在window–>show view中打开map/reduce locations,在底部会看到新的选项。然后右键–>new hadoop location,
location name是你自己取的名字,我这里用了hadoop,map/reduce master这里的host和port对应上面mapred-site.xml中mapred.job.tracker的值,我配置的是localhost和9001;dfs master对应上面core-site.xml中fs.default.name中的值,我配置的是localhost和9000.
完成后,如果屏幕左上方的dfs locations中的内容可以正常显示,说明配置一切成功。
3.运行wordcount
使用eclipse编写hadoop的程序了,按该方式创建file->new->project->map/reduce project.命名为hadoop-test。
将hadoop-0.20.203.0/src/examples/org/apache/hadoop/examples下的wordcount.java复制到当前项目中。
注意:要在src中看到wordcount.java文件,如果已经复制过来还看不到,在hadoop-test上右击选择refresh试一试。
另外,直接复制过来的文件,第一行要注释掉 //package org.apache.hadoop.examples;
在run configuration/java application/wordcount下进行程序参数设置
input为又本地导入hdfs得输入文件,其中包含两个文本文件,file01和file02
完成后,使用 run as/run on hadoop运行~~~~
在hdfs系统视图下可以看到刚才得运行结果
中途碰到得问题:装得时候不知道怎么回事,项目侧边栏(project explorer)看不见了。或者侧边栏是package explorer,这种情况下是看不见dfs locations的,应该在菜单栏