项目作者: Woods2016

项目描述 :
Java程序编写的Hadoop系列demo
高级语言: Java
项目地址: git://github.com/Woods2016/HadoopDemo.git
创建时间: 2017-08-14T06:47:34Z
项目社区:https://github.com/Woods2016/HadoopDemo

开源协议:

下载


Java程序Hadoop Demo

demo1

  1. 统计文件中单词出现的频率

demo2

根据天气年历,通过自定义排序/自定义分区/自定义分组,实现获取天气相关的统计信息。

目标

  1. 1. 获取2010年至2012年,每年温度最高的时刻
  2. 2. 获取2010年至2012年,每年温度最高的前十天

思路

  1. 1. 按照年份升序排序,同时每一年温度降序排序
  2. 2. 按照年份分组,每年对应一个reduce任务

demo3

在新浪微博中给九阳豆浆机打广告,广告精准推送,找到那些关注

关注度权重公式:
W = TF * Log(N/DF)
TF:当前关键字在该条微博内容中出现的次数
DF:当前关键字在所有微博中出现的条数,比如九阳,在某条
N:微博的总条数