关键词
描述
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 ,高速发展应用广泛的生态系统。
特点
高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。
Spark 很快,支持交互式计算和复杂算法。
Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。
内存计算下,Spark 比 Hadoop 快100倍。
易用性
Spark 提供了80多个高级运算符。
通用性
Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。
多种资源管理器
Hadoop YARN,Apache Mesos,及其自带的独立集群管理器
Shark:提供类HiveQL命令接口,实现query Parsing和 Logic Plan generation,PhysicalPlan execution阶段用Spark代替HadoopMapReduce。
SparkR:SparkR是一个为R提供了轻量级的Spark前端的R包。
Spark Streaming,Pregel on Spark
相关主题
相关项目