MapReduce(原理、资源设置、代码、优化等)hadoop总结.pdf
立即下载
布偶的表弟派大星丶
2025-03-17
存储
分布式
机器
HDFS
数据
Hadoop
提供
Hadoop
2.3 MB
一、Hadoop基础
1、分布式概念
通过爬虫>爬到网页存储>查找关键字
一台机器存储是有限的
Google采用多台机器,使用分布式的概念去存储处理
【关于计算】10TB数据,一台机器无法处理,可以用10台机器处理
每台机器可以处理1TB
Mapreduce额核心思想:分而治之
分为Map和Reduce
每个Map处理的数据是独立
Reduce就是合
10TB的数据“分”1TB,之后将结果“合”在一起存储
【关于存储】HDFS诞生>分布式文件系统
数据存储在HDFS上,然后MapReduce进行处理HDFS上的数据
【分布式存储】分布式数据库:HBase
Google称它为:BigTable、DFS、MapReduce
【谷歌三驾马车】
2、Hadoop特性
可靠、可扩展、分布式计算框架
【存储的可靠性】:如果存储数据的机器损坏了
HDFS提供了一个策略,给数据提供一个副本数(默认三个)
牺牲了硬盘作为代价,但是是划算的
HDFS存储形式:以块存储
块损坏了,同样提供了一个策略,对每个存储文件会生产一个校验码,之后定期在对它生产一个校验码,进行
匹配。如果不匹配,说明块已经损坏
【计算的可靠性】:
【可扩展性】可以添加任意的多台机器,添加配置
3、Hadoop四大核心模块介绍
Hadoop common:支持其他模块的工具类,为Hadoop模块提供基础设置
Hadoop HDFS:分布式文件系统,提供存储
Hadoop YARN:任务调度和集群资源管理
Hadoop MapReduce:分布式离线计算框架
4、Hadoop HDFS构架解析
设计理念,一次写入,多次读取
/ /存储/分布式/机器/HDFS/数据/Hadoop/提供/Hadoop /
/ /存储/分布式/机器/HDFS/数据/Hadoop/提供/Hadoop /
-->