红联Linux门户
Linux帮助

Ubuntu 12.10上安装Eclipse并在其上运行第一个MapReduce程序WordCount

发布时间:2014-07-12 16:14:32来源:红联作者:velcbo
首先到官网下载eclipse,找到eclipse for java developer,linux版本eclipse-java-juno-SR1-linux-gtk.tar.gz

下载完到下载目录,tar -zxvf eclipse-java-juno-SR1-linux-gtk.tar.gz -C ..你想解压到的目录

然后把解压目录添加到PATH路径,这样在终端输入eclipse就能启动了。

下一步就要安装Hadoop for eclipse 插件。在你的hadoop安装目录下的contrib目录下看是否有eclipse-plugin目录,如果有其内就是对应的插件。如果没有,就要自己编译了(目前我还不会编译),源代码在hadoop目录下的

src/contrib/eclipse-plugin。我的hadoop版本是1.1.0,如果你的和我的版本一样,在这里获取插件hadoop-eclipse-plugin-1.1.0.jar: http://pan.baidu.com/share/link?shareid=434048&uk=487907638

有插件后,把它复制到eclipse安装目录下的plugins下。然后重启hadoop。这里要注意一点,有时候eclipse会出现加载插件失败的情况,如果出现,就用eclipse -clean命令启动。

启动后,File->New->Project..如果出现Map/Reduce Project选项,选择后next,输入Project name完成后,说明插件安装成功了。如果出现了Map/Reduce Project选项,但是next后提示错误,说明你使用的插件不可行,要找到正确的插件才行(有些人可能自己编译的插件,会出现这样的情况)。

下面在window->preferences选项里配置Hadoop目录

然后启动hadoop,点击eclipse下方选项黄色小象,在下方空白处右键,New hadoop location..,

上面左方的Map/Reduce Master设置Host和Port对应的是你hadoop安装目录下conf下mapred-site.xml文件设置的host和port,右边的DFS Master对应的是core-site.xml.如果core-site.xml下只有localhost而没有端口号,默认的就是8020.设置好后finish。然后就能在eclipse里面浏览并操作HDFS了。

下面我们试着运行一个wordcount算法。

在刚才建的map/reduce project下的src文件夹上右键,New->class

然后把Hadoop安装目录下的src/examples/org/apache/hadoop/examples内的WordCount.java内的代码copy到工程中的WordCount.java里。

删除第一行。保存。然后制作input文件并上传到HDFS中。

终端输入:vi input

输入一行文字,保存。然后hadoop fs -put input .

文件就上传到HDFS了,刷新eclipse中的myhdoop下的目录就可以看到。

然后开始运行。在建立的WordCount.java上面右键,Run as->run configurations

左边的java application右键New

要确保HDFS中不存在output目录,否则会抛出异常。点击Run

运行结束后,在左方的myHadoop里面就能看输出结果了(要右键刷新),或者在终端通过命令行查看。

因为本wordcount算法只对空格做间隔符号,所以会出现bin,what计为一个单词的情况。
作者:斌斌
文章评论

共有 0 条评论