Java程序编写的Hadoop系列demo
统计文件中单词出现的频率
根据天气年历,通过自定义排序/自定义分区/自定义分组,实现获取天气相关的统计信息。
1. 获取2010年至2012年,每年温度最高的时刻
2. 获取2010年至2012年,每年温度最高的前十天
1. 按照年份升序排序,同时每一年温度降序排序
2. 按照年份分组,每年对应一个reduce任务
在新浪微博中给九阳豆浆机打广告,广告精准推送,找到那些关注
关注度权重公式:
W = TF * Log(N/DF)
TF:当前关键字在该条微博内容中出现的次数
DF:当前关键字在所有微博中出现的条数,比如九阳,在某条
N:微博的总条数