MapReduce（原理、资源设置、代码、优化等）hadoop总结.pdf

立即下载 作者: 布偶的表弟派大星丶
上传时间: 2025-03-17
关键词: 存储分布式机器 HDFS 数据 Hadoop 提供 Hadoop
大小 2.3 MB
描述

   一、Hadoop基础
1、分布式概念
        通过爬虫>爬到网页存储>查找关键字 
        一台机器存储是有限的 
        Google采用多台机器，使用分布式的概念去存储处理 
        【关于计算】10TB数据，一台机器无法处理，可以用10台机器处理
        每台机器可以处理1TB 
        Mapreduce额核心思想：分而治之 
        分为Map和Reduce
        每个Map处理的数据是独立
        Reduce就是合 
        10TB的数据“分”1TB，之后将结果“合”在一起存储
        
        【关于存储】HDFS诞生>分布式文件系统
        数据存储在HDFS上，然后MapReduce进行处理HDFS上的数据
        
        【分布式存储】分布式数据库：HBase
        Google称它为：BigTable、DFS、MapReduce
        【谷歌三驾马车】 
2、Hadoop特性
        可靠、可扩展、分布式计算框架 
        【存储的可靠性】：如果存储数据的机器损坏了 
        HDFS提供了一个策略，给数据提供一个副本数（默认三个） 
        牺牲了硬盘作为代价，但是是划算的 
        HDFS存储形式：以块存储 
        块损坏了，同样提供了一个策略，对每个存储文件会生产一个校验码，之后定期在对它生产一个校验码，进行
匹配。如果不匹配，说明块已经损坏
        【计算的可靠性】： 
        【可扩展性】可以添加任意的多台机器，添加配置 
3、Hadoop四大核心模块介绍
        Hadoop common：支持其他模块的工具类，为Hadoop模块提供基础设置 
        Hadoop HDFS：分布式文件系统，提供存储 
        Hadoop YARN：任务调度和集群资源管理 
        Hadoop MapReduce：分布式离线计算框架 
4、Hadoop HDFS构架解析
        设计理念，一次写入，多次读取

目录
/ /存储/分布式/机器/HDFS/数据/Hadoop/提供/Hadoop / / /存储/分布式/机器/HDFS/数据/Hadoop/提供/Hadoop /

-1 条回复

登录后才能参与评论