MapReduce-统计单词出现频率实例

2014-03-17 09:31阅读：

http://blog.sina.cn/dpool/blog/u/1647674485

MapReduce的应用案例
如果想统计下过去10年计算机论文出现最多的几个单词，看看大家都在研究些什么，那收集好论文后，该怎么办呢？
方法一：我可以写一个小程序，把所有论文按顺序遍历一遍，统计每一个遇到的单词的出现次数，最后就可以知道哪几个单词最热门了。
这种方法在数据集比较小时，是非常有效的，而且实现最简单，用来解决这个问题很合适。
方法二：写一个多线程程序，并发遍历论文。
这个问题理论上是可以高度并发的，因为统计一个文件时不会影响统计另一个文件。当我们的机器是多核或者多处理器，方法二肯定比方法一高效。但是写一个多线程程序要比方法一困难多了，我们必须自己同步共享数据，比如要防止两个线程重复统计文件。
方法三：把作业交给多个计算机去完成。
我们可以使用方法一的程序，部署到N台机器上去，然后把论文集分成N份，一台机器跑一个作业。这个方法跑得足够快，但是部署起来很麻烦，我们要人工把程序copy到别的机器，要人工把论文集分开，最痛苦的是还要把N个运行结果进行整合（当然我们也可以再写一个程序）。
方法四：让MapReduce来帮帮我们吧！
MapReduce本质上就是方法三，但是如何拆分文件集，如何copy程序，如何整合结果这些都是框架定义好的。我们只要定义好这个任务（用户程序），其它都交给MapReduce。

map函数

map函数和reduce函数是交给用户实现的，这两个函数定义了任务本身。
map函数：接受一个键值对（key-value pair），产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。
reduce函数：接受一个键，以及相关的一组值，将这组值进行合并产生一组规模更小的值（通常只有一个或零个值）。
统计词频的MapReduce函数的核心代码非常简短，主要就是实现这两个函数[参考自MapReduce: ]。
map(String key, String value):

新浪博客

MapReduce-统计单词出现频率实例

map函数

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼