PROSAGA码农传奇-5G-Spark写入/读取S3

<div class =“post-text”itemprop =“text”>
  
    由于没有指定，我假设在我的回答中使用gzip和Spark 2.2。
  
  <UL>
    <LI>
      的
        任何强制输入大小处理的默认设置为64MB ??
      </强>
    </LI>
  </UL>
  
    就在这里。 Spark是一个Hadoop项目，因此即使它是基于对象的文件系统，也将S3视为基于块的文件系统。
所以真正的问题是：你使用的是S3文件系统的哪个实现（s3a，s3n）等。可以找到类似的问题
    <a href="https://stackoverflow.com/questions/37168716/how-many-partitions-does-spark-create-when-a-file-is-loaded-from-s3-bucket">
      这里
    </A>
    。
  
  <UL>
    <LI>
      的
        由于我使用的数据是随机字节并且已经压缩，它如何进一步分割这些数据？如果它可以拆分这个数据，为什么它不能分割4gb目标文件大小的文件大小？
      </强>
    </LI>
  </UL>
  
    <a href="http://spark.apache.org/docs/latest/programming-guide.html" rel="nofollow noreferrer">
      Spark文档
    </A>
     表明它能够读取压缩文件：
  
  <BLOCKQUOTE>
    
      所有Spark s基于文件的输入方法（包括textFile）都支持在目录，压缩文件和通配符上运行。例如，您可以使用textFile（“/ my / directory”），textFile（“/ my / directory / .txt”）和textFile（“/ my / directory / .gz”）。
    
  </BLOCKQUOTE>
  
    这意味着您的文件很容易读取并转换为每行的纯文本字符串。
  
  
    但是，您使用的是压缩文件。假设它是一种不可拆分的格式，例如gzip，则需要整个文件进行解压缩。您运行的是3gb执行程序，它可以很好地满足4mb-1gb文件的需要，但不能同时处理大于3gb的文件（可能在考虑开销后较小）。
  
  
    在此可以找到更多信息
    <a href="https://stackoverflow.com/questions/40492967/dealing-with-a-large-gzipped-file-in-spark">
      题
    </A>
    。可拆分压缩类型的详细信息可在此处找到
    <a href="https://stackoverflow.com/a/34209281/2996373">
      回答
    </A>
    。
  
  <UL>
    <LI>
      的
        为什么在通过spark上传后压缩文件大小增加？2MB压缩输入文件在输出桶中变为3.6 MB。
      </强>
    </LI>
  </UL>
  
    作为前一点的必然结果，这意味着火花在读取明文时对RDD进行了解压缩。在重新上传时，它不再被压缩。要压缩，您可以将压缩编解码器作为参数传递：
  
   <pre>
 <code>
 sc.saveAsTextFile("s3://path", classOf[org.apache.hadoop.io.compress.GzipCodec])

</code>
 </pre>
  
    还有其他压缩格式可用。
  
</DIV>

Spark写入/读取S3 - 分区大小和压缩