大数据实时处理技术以及其应用.pdf


立即下载 荧惑
2025-05-11
数据 实时 分析 管理 模型 需求 开发者 商品 京东 思考
1.2 MB

大数据实时处理技术及其应用
李松林
2013年4月
Agenda
• 大数据的现状
• 业务场景思考
• 技术架构及其应用
• Q&A
关于京东
关于京东(续)
营销
管理
供应商
管理
仓储
管理
财务
系统
客户
数据
网站
前台
 京东拥有覆盖企业全部价值链的稳定系统,通过持续优化打造开放平
台,全面提升用户体验。
配送
管理
• 3 V :速度、容量、类型
• 数据的来源更加丰富
– 商品、订单、„
– 社交 „
– 营销 „
• 数据间的关联性更加复杂
– 人与人
– 商品与商品
– „
• 数据的价值
– 时效性
– 新商业模式
大数据时代
大规模数据处理更加容易
ETL/企业数据仓库
(Hive/Pig/MR)
数据挖掘/建模
(R、Mahout)
搜索和推荐
日志存储

• “Next Click”
• 运营智能
• 风险控制
• 互动分析
• „
一些场景需要进一步的考量
MapReduce批量处理
=
延迟较长
无法满足用户的实时需求
调度开销较大
大数据包括三部分
批处理与分析 近实时分析 实时流处理
实时性 离线 准实时/实时 实时
处理时间 分钟到小时 毫秒到秒 持续不断
数据量 TB - PB GB - TB 持续
编程模型 MapReduce Queries DAG
用户 分析师/开发者 分析师/开发者 开发者
成本 中 高 高
应用 ETL/数据挖掘/
预处理„
数据决策分析
/„

性能
服务
模型
大数据实时处理的思考
• 模型
– 海量数据
• 数据量大
• 并发数高
– 多个数据源整合
– 预定义好的数据模型
• 去规格化
– 数据任务依赖关系简单
– 推和拉的问题
• 拉比推好
大数据实时处理的思考(续)
• 性能
– 高并发需求
– 大容量需求
• GB–TB 级后台数据处理吞吐
– 高速度需求
• 从数据产生到处理完成结果延迟要求到秒级


数据/实时/分析/管理/模型/需求/开发者/商品/京东/思考/ 数据/实时/分析/管理/模型/需求/开发者/商品/京东/思考/
-1 条回复
登录 后才能参与评论
-->