PROSAGA码农传奇-Sahara云大数据-Hadoop流程记录如何跨块边界拆分？

有趣的问题，我花了一些时间查看代码的详细信息，这是我的想法。拆分由客户端通过进行处理InputFormat.getSplits，因此查看FileInputFormat可以得到以下信息：

对于每个输入文件，获取文件长度，块的大小，并计算分割尺寸max(minSize, min(maxSize, blockSize))，其中maxSize对应于mapred.max.split.size和minSize是mapred.min.split.size。
FileSplit根据上面计算出的分割大小将文件分成不同的。这里重要的是，每个参数FileSplit都使用与start输入文件中的offset对应的参数进行初始化。那时仍然没有处理这些行。代码的相关部分如下所示：

while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
  int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
  splits.add(new FileSplit(path, length-bytesRemaining, splitSize, 
                           blkLocations[blkIndex].getHosts()));
  bytesRemaining -= splitSize;
}
之后，如果您查看LineRecordReader由定义的，则将TextInputFormat在其中处理行：

初始化时，LineRecordReader它会尝试实例化a LineReader，这是一种能够读取行上方的抽象FSDataInputStream。有两种情况：
如果有CompressionCodec定义，则此编解码器负责处理边界。可能与您的问题无关。
但是，如果没有编解码器，那就很有趣：如果start您的InputSplit的不等于0，则您回溯1个字符，然后跳过遇到的由\ n或\ r \ n标识的第一行（Windows）！回溯很重要，因为如果您的行边界与拆分边界相同，这可以确保您不会跳过有效行。以下是相关代码：

if (codec != null) {
   in = new LineReader(codec.createInputStream(fileIn), job);
   end = Long.MAX_VALUE;
} else {
   if (start != 0) {
     skipFirstLine = true;
     --start;
     fileIn.seek(start);
   }
   in = new LineReader(fileIn, job);
}
if (skipFirstLine) {  // skip first line and re-establish "start".
  start += in.readLine(new Text(), 0,
                    (int)Math.min((long)Integer.MAX_VALUE, end - start));
}
this.pos = start;
因此，由于拆分是在客户端中计算的，因此映射器不需要按顺序运行，因此每个映射器都已经知道是否需要丢弃第一行。

因此，基本上，如果在同一文件中每100Mb有2行，为简化起见，假设拆分大小为64Mb。然后，当计算输入拆分时，将有以下情形：

拆分1，包含该块的路径和主机。在起始200-200 = 0Mb处初始化，长度为64Mb。
分割2初始化为起始200-200 + 64 = 64Mb，长度为64Mb。
分割3初始化为起始200-200 + 128 = 128Mb，长度为64Mb。
分割4初始化为起始200-200 + 192 = 192Mb，长度为8Mb。
映射器A将处理拆分1，开始为0，所以不要跳过第一行，而是读取超出64Mb限制的整行，因此需要远程读取。
映射器B将处理拆分2，开始为！= 0，因此跳过64Mb-1byte之后的第一行，这对应于拆分2中仍在拆分2中的行1的末尾100Mb，因此拆分2中有28Mb的行，因此远程读取剩余的72Mb。
映射器C将处理拆分3，开始为！= 0，因此跳过128Mb-1byte之后的第一行，它对应于200Mb的第2行的末尾，也就是文件的末尾，因此请勿执行任何操作。
映射器D与映射器C相同，只不过它在192Mb-1byte之后寻找换行符。