Spark 编程指南简体中文版.pdf


立即下载 滔滔江水
2024-03-23
Spark File text RDD 指南 编程 spark 方式 Java Scala
1.5 MB

Introduction
Spark 编程指南简体中文版
本书出处:http://endymecy.gitbooks.io/spark-programming-guide-zh-cn/content/
Copyright
本文翻译自Spark 官方文档
License
本文使用的许可请查看这里
Spark 编程指南简体中文版
- 1 -本文档使用 看云 构建
快速上手
快速上手
本节课程提供一个使用 Spark 的快速介绍,首先我们使用 Spark 的交互式 shell(用 Python 或 Scala) 介
绍它的 API。当演示如何在 Java, Scala 和 Python 写独立的程序时,看编程指南里完整的参考。
依照这个指南,首先从 Spark 网站下载一个 Spark 发行包。因为我们不会使用 HDFS,你可以下载任何
Hadoop 版本的包。
Spark Shell
独立应用程序
开始翻滚吧!
Spark Shell
使用 Spark Shell
基础
Spark 的 shell 作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习 API。它可以使用
Scala(在 Java 虚拟机上运行现有的 Java 库的一个很好方式) 或 Python。在 Spark 目录里使用下面的方
式开始运行:
./bin/spark-shell
Spark 最主要的抽象是叫Resilient Distributed Dataset(RDD) 的弹性分布式集合。RDDs 可以使用
Hadoop InputFormats(例如 HDFS 文件)创建,也可以从其他的 RDDs 转换。让我们在 Spark 源代码目
录从 README 文本文件中创建一个新的 RDD。
scala> val textFile = sc.textFile("README.md")
textFile: spark.RDD[String] = spark.MappedRDD@2ee9b6e3
RDD 的 actions 从 RDD 中返回值,transformations 可以转换成一个新 RDD 并返回它的引用。让我们
开始使用几个操作:
scala> textFile.count() // RDD 的数据条数
res0:


Spark/File/text/RDD/指南/编程/spark/方式/Java/Scala/ Spark/File/text/RDD/指南/编程/spark/方式/Java/Scala/
-1 条回复
登录 后才能参与评论
-->