Hadoop使用RecordReaders和InputFormats作为读取和理解块内字节的两个接口。
默认情况下,在Hadoop MapReduce中,每个记录都以TextInputFormat结束在一个新行上,对于只有一行跨越块结尾的场景,必须读取下一个块,即使它只是字面上的 \r\n 人物
\r\n
编写数据是从reduce任务或Spark执行器等完成的,因为每个任务只负责编写整个输出的一个子集。你通常永远不会为非小作业获得单个文件,这不是问题,因为大多数Hadoop处理引擎的输入参数都是为了扫描目录,而不是指向单个文件