在Parquet错误中转换CSV

作者: 布偶的表弟派大星丶
发布时间: 2024-06-13 02:55:47 (1月前)
转自：

3 条回复

0#
回复此人
不浪漫 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 经过一些研究，我发现了我的问题。我的路径写得不正确。我必须使用file：/ my path而不是//我的路径。 </p> <P> 所以这个帖子可以关闭。谢谢你的答案。 </p> </DIV>

编辑
1#
回复此人
十二* | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 我建议仔细检查您的代码段 </p> <pre> <code> # Displays the content of the DataFrame to stdout df = sqlContext.createDataFrame(rdd,schema) </code> </pre> <P> 看起来您应首先将数据帧转换为RDD，然后使用将其映射到构造的架构中 </p> <pre> <code> rdd = df.rdd </code> </pre> <P> 我做了一个小实验。 </p> <pre> <code> //read csv file df = spark.read.csv('/<path_to_csv>', header=True) //casting types for specific columns because loaded data is string at it has unicode prefix df = df.select(df.<column_name>.cast('timestamp'),df.<column_name>.cast('int'),df.<column_name>.cast('int'),df.<column_name>.cast('int')) //creating dataframe using schema dt = spark.createDataFrame(df.rdd,schema) //write as parquet dt.write.parquet('/path_to_parquet_file') </code> </pre> </DIV>

编辑

登录后才能参与评论