PROSAGA码农传奇-spark-使用Spark和split读取文本文件数据

<div class =“post-text”itemprop =“text”>
  <P>
    您的数据不是CSV格式。 CSV表示具有固定架构的逗号分隔文本文件。您的数据的CSV将是：
  </p>
   <pre>
    <code>
      abc,x1,x2,x3,,
def,x1,x3,x4,x8,x9
ghi,x7,x10,x11,,

</code>
  </pre>
  <P>
    请注意第1行和第1行中的尾随逗号。 3，不在您的数据中。
  </p>
  <P>
    由于您的文本文件不是CSV，因此在Spark中获取所需模式的方法是在Python中读取整个文件，解析为您想要的内容然后使用
     <code>
      spark.crateDataFrame()
    </code>
    。或者，如果目录中有多个这样的文件，请使用
     <code>
      SparkContext.wholeTextFiles
    </code>
     然后
     <code>
      flatMap
    </code>
     你的解析功能。
  </p>
  <P>
    假设你已经做过类似的事情
     <code>
      open("Your File.txt").readlines
    </code>
    ，其余的很简单：
  </p>
   <pre>
    <code>
      import re
from pyspark.sql import *

lines = [
  "abc, x1, x2, x3",
  "def, x1, x3, x4,x8,x9",
  "ghi, x7, x10, x11"
]

split = re.compile("\s*,\s*")
Line = Row("id", "first", "rest")

def parse_line(id, line):
  tokens = split.split(line.strip)
  return Line(id, tokens[0], tokens.pop(0))

def parse_lines(lines):
  return [parse_line(i, x) for i,x in enumerate(lines)]

spark.createDataFrame(parse_lines(lines))

</code>
  </pre>
</DIV>