大数据BI的底层技术分享.pdf


立即下载 那月静好
2024-12-12
数据 www.yonghongtech.com 计算 存储 分析 查询 BI 索引 压缩 抽取
1.1 MB

www.yonghongtech.com
Yonghong大数据BI的底层技术分享
2013.9.21
新浪微博@永洪科技BI
www.yonghongtech.com
www.yonghongtech.com 2
目录
• 1.大数据的移动
• 2.大数据分析的技术
– ETL
– 数据存储
– 数据计算
– 数据展现
• 3.体系架构
大数据来了!
www.yonghongtech.com 3
大数据的移动
数据采集存储 数据分析 数据挖掘
www.yonghongtech.com 4
Online大数据分析
在线大数据分析引擎的趋势
数据碎片化
面向列、数据分片、压缩
丰富的数据块元数据
分布式并行计算
Map Reduce
Streaming Computing
基于内存计算
主存数据库
Push in Database
www.yonghongtech.com 5
Online大数据分析
增量ETL
列存储
分布式存储
内存计算
库内计算
分布式计算
支撑BI
JDBC访问
ROLAP
数据抽取并存储 数据计算 数据展现
www.yonghongtech.com 6
数据抽取并存储
ETL抽取
• 定时增量同步数据
• 细节数据或轻度汇总
• 压缩, 索引,标签
数据存储
• 列存储
• 分布式文件存储系统-ZFS
• 面向主题的数据集市
www.yonghongtech.com 7
列存储与行存储的比对
• 数据是按行存储的
• 没有索引的查询使用大量I/O
• 建立索引和物化视图需要花费大
量时间和资源
• 面对查询的需求,数据库必须被
大量膨胀才能满足性能要求

• 数据按列存储 – 每一列单独存放
• 数据即是索引
• 只访问查询涉及的列 – 大量降低系
统IO
• 每一列由一个线索来处理 – 查询的
并发处理
• 数据类型一致,数据特征相似 – 方
便压缩
www.yonghongtech.com 8
数据抽取并存储


数据/www.yonghongtech.com/计算/存储/分析/查询/BI/索引/压缩/抽取/ 数据/www.yonghongtech.com/计算/存储/分析/查询/BI/索引/压缩/抽取/
-1 条回复
登录 后才能参与评论
-->