MapReduce(原理、资源设置、代码、优化等)hadoop总结.pdf


立即下载 布偶的表弟派大星丶
2024-03-23
       存储 分布式 机器 HDFS 数据 Hadoop 提供 Hadoop 
2.3 MB

一、Hadoop基础
1、分布式概念
        通过爬虫­­>爬到网页存储­­>查找关键字 
        一台机器存储是有限的 
        Google采用多台机器,使用分布式的概念去存储处理 
        【关于计算】10TB数据,一台机器无法处理,可以用10台机器处理
        每台机器可以处理1TB 
        Mapreduce额核心思想:分而治之 
        分为Map和Reduce
        每个Map处理的数据是独立
        Reduce就是合 
        10TB的数据“分”1TB,之后将结果“合”在一起存储
        
        【关于存储】HDFS诞生­­>分布式文件系统
        数据存储在HDFS上,然后MapReduce进行处理HDFS上的数据
        
        【分布式存储】分布式数据库:HBase
        Google称它为:BigTable、DFS、MapReduce
        【谷歌三驾马车】 
2、Hadoop特性
        可靠、可扩展、分布式计算框架 
        【存储的可靠性】:如果存储数据的机器损坏了 
        HDFS提供了一个策略,给数据提供一个副本数(默认三个) 
        牺牲了硬盘作为代价,但是是划算的 
        HDFS存储形式:以块存储 
        块损坏了,同样提供了一个策略,对每个存储文件会生产一个校验码,之后定期在对它生产一个校验码,进行
匹配。如果不匹配,说明块已经损坏
        【计算的可靠性】: 
        【可扩展性】可以添加任意的多台机器,添加配置 
3、Hadoop四大核心模块介绍
        Hadoop common:支持其他模块的工具类,为Hadoop模块提供基础设置 
        Hadoop HDFS:分布式文件系统,提供存储 
        Hadoop YARN:任务调度和集群资源管理 
        Hadoop MapReduce:分布式离线计算框架 
4、Hadoop HDFS构架解析
        设计理念,一次写入,多次读取 


   /  /存储/分布式/机器/HDFS/数据/Hadoop/提供/Hadoop /    /  /存储/分布式/机器/HDFS/数据/Hadoop/提供/Hadoop /
-1 条回复
登录 后才能参与评论
-->