Hadoop前沿技术分享-思数科技.pdf


立即下载 布偶的表弟派大星丶
2024-03-26
Hadoop 数据 2.0 计算 MapReduce 数据库 YARN Node 技术 内存
628.2 KB

Hadoop与大数据前沿技术
北京思数科技 010-82756797 BIHuman
Hadoop应用领域
• 互联网公司(广告、电商、门户等)
• 报表和挖掘
• 数据存储、下载
• 监控和故障诊断
• 图形处理
• 视频搜索
• 车牌号扫描处理
• GIS地理信息、能源开采、节能环保、生物医学、科学计算
应用Hadoop难点
• 运维成本高
• 开发成本高
• Hadoop生态系统复杂
• Hadoop技术快速发展导致知识更新很快
• 缺少解决问题途径
大数据技术前沿
Hadoop 1.0 现有问题
• NameNode、Jobtracker单独故障
• NameNode内存限制问题
• Jobtracker功能耦合问题
• MapReduce运行性能问题
Hadoop 1.0 HDFS架构
MRv1
Hadoop 2.0
• 2.0中2013年10月正式发布
• 2.0中解决NameNode单点问题,支持手动和自动两种切换模式
• 2.0支持MRv1和MRv2(YARN)两种运算架构,较1.0而言性能
也有所提升
• 2.0添加HDFS federation功能,使NameNode可以水平扩展
• 2.0运维成本更高了
Hadoop 2.0 HDFS架构
MRv2(YARN)
YARN
交互式查询
• Cloudera——Impala
• 开源
• 支持SQL查询,兼容Hive语法
• 比hive快3-90倍(不同场景)
• 类似MapReduce处理流程,但不依赖于现有MapReduce框架
• Hortonworks——Tez
下一代MapReduce计算框架—Spark
• 运算基于内存
• 兼容HDFS
• 可以运行于YARN之上
• 更少代码,更快性能
流式计算Streaming
R语言
• 内置大量功能包,用于统计分析、科学计算、绘图、数据挖掘
• 与Hadoop集成进行大数据挖掘和分析
NoSQL
• 文档类型数据库——mongoDB
• Key-value内存数据库——Redis
• 基于Hadoop key-value数据库——Hbase
• 分布式key-value数据库——cassandra
大数据学习建议
选择Hado


Hadoop/数据/2.0/计算/MapReduce/数据库/YARN/Node/技术/内存/ Hadoop/数据/2.0/计算/MapReduce/数据库/YARN/Node/技术/内存/
-1 条回复
登录 后才能参与评论
-->