如何解压缩/解密gzip文件的单行

作者: 呵呵
发布时间: 2024-04-25 05:45:39 (1天前)
转自：

<div class =“excerpt”>
  
                 清酒）...

b'BAM \ X01 \ X17 \ X18 \ X00 \ X00 @ HD \ TVN：1.0 \ TSO：坐标\ N”
B'@ SQ \
  <span class =“result-highlight”>
    tSN要从
  </跨度>
  ：1 \ TLN：248956422 \ N”
B'@ SQ \
  <span class =“result-highlight”>
    tSN要从
  </跨度>
  ：10 \ TLN：133797422 \ N”
B'@ SQ \
  <span class =“result-highlight”>
    tSN要从
  </跨度>
  ：11 \ TLN：135086622 \ N”
B'@ SQ \
  <span class =“result-highlight”>
    tSN要从
  </跨度>
  ：12 \ TLN：133275309 \ N”
B'@ SQ \
  <span class =“result-highlight”>
    tSN要从
  </跨度>
  ：13 \tLN  ：114364328 \ n'
B'@ SQ \
  <span class =“result-highlight”>
    tSN要从
  </跨度>
  ：14 \ TLN：107043718 \ N”
B'@ SQ \
  <span class =“result-highlight”>
    tSN要从
  </跨度>
  ：15 \ TLN：101991189 \ n”
B'@ SQ \
  <span class =“result-highlight”>
    tSN要从
  </跨度>
  ：16 \ TLN：90338345 \ N”
B'@ SQ \
  <span class =“result-highlight”>
    tSN要从
  </跨度>
  ：17 \ TLN：83257441 \ N”
B'@ SQ \
  <span class =“result-highlight”>
    tSN要从
  </跨度>
  ：18 \ TLN：80373285 \ N”

有些人可能会注意到这是一个BAM文件   
            
</DIV>

3 条回复

0#
回复此人
那年 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 一种简单的方法是利用有效gzip流的串联是一个gzip流这一事实。然后在压缩时，您可以将行块压缩为单独的gzip流，并记录文件中gzip流的起始位置，以及该流中压缩的第一行的行号。然后你可以跳到那个位置并从那里开始解压缩。如果你的块大约是兆字节（大约50,000行），那么压缩率应该相对较小。然后平均而言，您需要解压缩25,000行才能到达任何给定的行，而不是750万行。 </p> <P> 如果您无法控制gzip文件的创建，并且无法根据需要重新创建它，那么您可以使用以下方法索引现有的gzip文件 <a href="https://github.com/madler/zlib/blob/master/examples/zran.c" rel="nofollow noreferrer"> zran.c </A> 。您可以指定接入点的接近程度，并建立一个索引，允许从每个点开始访问。您还需要为行开始构建索引（就像对未压缩文件一样），将具有字节偏移的索引与未压缩数据相关联。 </p> </DIV>

编辑
1#
回复此人
岁爵 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 您将无法在gzip文件中查明随机访问的指定行，但您可以在压缩文件中使用索引，然后使用1000行或其他内容精确定位块。 <a href="https://pypi.python.org/pypi/indexed-gzip/0.3.1" rel="nofollow noreferrer"> 索引-的gzip </A> 可能是一种选择。 </p> <P> 但是，查看数据让我想知道你是否不能手动进行压缩。如果将压缩设置为固定长度，则可以计算文件中每行开始的位置，然后从该位置读取。似乎每一行只能用两个数字表示。或者我不明白格式？ </p> </DIV>

编辑

登录后才能参与评论