spark-PRO科技-PROSAGA

摘要(Abstract)

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎，高速发展应用广泛的生态系统。特点高级 API 剥离了对集群本身的关注，Spark 应用开发者可以专注于应用所要做的计算本身。 Spark 很快，支持交互式计算和复杂算法。 Spark 是一个通用引擎，可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等，而在 Spark 出现之前，我们一般需要学习各种各样的引擎来分别处理这些需求。内存计算下，Spark 比 Hadoop 快100倍。易用性 Spark 提供了80多个高级运算符。通用性 Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。多种资源管理器 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器 Shark：提供类HiveQL命令接口，实现query Parsing和 Logic Plan generation，PhysicalPlan execution阶段用Spark代替HadoopMapReduce。 SparkR：SparkR是一个为R提供了轻量级的Spark前端的R包。 Spark Streaming，Pregel on Spark

主题(Topic)

spark hive storn Chukwa zookeeper HDFS tez pig mahout druid cassandra flume titan sqoop Ambari hbase

项目(Project)

Marwes/nanbox gportay/webviewer jongha/nangrang-homepage mobilotest/Android_Test Fuenj/Exploring-Weather-Trends Rahaffst/Analyze-AB-Test-Results tilde-tilde/FBG_Firmware Sergey1560/Marlin_FB4S khoih-prog/nRF52_MBED_Slow_PWM MamboBryan/BooksApp elcritch/nerves_system_nanopi_core2 JuanDavidPiscoJaimes/DeepLearningClassifier AleksanderKuzmin/Personal-Blog unframework/licheepi-nano-buildroot PhasesResearchLab/nanograin Abdelaty/Data-Structure-and-Algorithms-Nanodegree zhengzangw/ICS-PA-2018 cs-qyzhang/ics-2019 NanoNets/nanonets-id-card-digitization kamelz/take-a-break SpotlightData/nanowire-extensions lvm/nk2-osc lmzdev/nanoblog-php karlmarx/BotVsBottom yhaddad/NUNanoAOD jfkimberly/ADDBAR lhondareyte/nanobsd pvalkone/nanobsd-sk6501 esnho/ofxNanoKontrolTwo leimaau/leimaau-webdict2

全部项目