摘要(Abstract)

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 ,高速发展应用广泛的生态系统。 特点 高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。 Spark 很快,支持交互式计算和复杂算法。 Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。 内存计算下,Spark 比 Hadoop 快100倍。 易用性 Spark 提供了80多个高级运算符。 通用性 Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。 多种资源管理器 Hadoop YARN,Apache Mesos,及其自带的独立集群管理器 Shark:提供类HiveQL命令接口,实现query Parsing和 Logic Plan generation,PhysicalPlan execution阶段用Spark代替HadoopMapReduce。 SparkR:SparkR是一个为R提供了轻量级的Spark前端的R包。 Spark Streaming,Pregel on Spark


主题(Topic)

项目(Project)