spark-PRO科技-PROSAGA

摘要(Abstract)

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎，高速发展应用广泛的生态系统。特点高级 API 剥离了对集群本身的关注，Spark 应用开发者可以专注于应用所要做的计算本身。 Spark 很快，支持交互式计算和复杂算法。 Spark 是一个通用引擎，可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等，而在 Spark 出现之前，我们一般需要学习各种各样的引擎来分别处理这些需求。内存计算下，Spark 比 Hadoop 快100倍。易用性 Spark 提供了80多个高级运算符。通用性 Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。多种资源管理器 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器 Shark：提供类HiveQL命令接口，实现query Parsing和 Logic Plan generation，PhysicalPlan execution阶段用Spark代替HadoopMapReduce。 SparkR：SparkR是一个为R提供了轻量级的Spark前端的R包。 Spark Streaming，Pregel on Spark

主题(Topic)

spark spark

apache-spark-spark hive storn Chukwa zookeeper HDFS tez pig mahout druid cassandra flume titan sqoop Ambari hbase

sparkstreaming-kafka clustering-algorithm Dockerfile faiss pheonix sparkcore recommender d3 ml dataviz nice datavisualization excel-rdd apache-spark-dataset fp-growth kbqa angular2 spark-java thrift-server nan shiro-security predicate-pushdown lsh-algorithm cooccurrence tilelayer mllib hadood recommand-system springboot-spark d3js hibernate-jpa recommendation-algorithm product-relation spark-mllib product-recommendation kmeans spring-boot-spark-starter pipline hiveserver2 movie-recommendation jdbc-driver api-server spark-streaming-als als javscript sparksql kafka-streams spark-learning usercf

apache-spark-cluster apache-spark-framework apache-spark-library datacamp-apache-spark join-apache-spark apache-spark-spring-integration aapache-spark apache-sparksql arturia-spark cassandra-spark-connector cca-spark combine-spark dwh-s3-spark easy-spark eddn-spark eddn-spark-compose enth-spark-ai framework-sparkle installing-spark kafka-spark-streaming learn-spark lox-spark n-consequetive-increases-in-spark oozie-spark orion-spark-connector php-sparkpost php-sparkposthelper play-spark prd-blog-sparkle-growth prd-sparkle prd-sparkle-android prd-sparkle-api prd-sparkle-ios prd-sparkle-web react-sparklines rest-data-source-for-spark ruby-spark spark-ada spark-aggregations-using-dataframe spark-ai spark-analytics spark-api spark-ar spark-ar-studio spark-aurelius spark-azkaban spark-basics spark-bench

项目(Project)

apache/spark jaceklaskowski/spark-streaming-notebook ankur715/Apache_Spark Nitish-Joshi/Apache-Spark marouni/spark-tests xmlking/spark-playground gerdreiss/learning-spark apache/spark-website Ashishkr007/SparkKafkaIntegration USCDataScience/sparkler yurkao/spark-dns iAjitPrasad/BigData_CaseStudyIII_SensorUsingSpark NVIDIA/spark-rapids udayshankar1306/spark_way Wolvarun9295/SparkStructuredStreaming--TwitterAPI-PySpark-Kafka oluies/tedsds HadesArchitect/CaSpark zoltan-nz/learning-spark akashsethi24/Custom_Receiver mattjang96/Spark projekt-opal/OpalSpark omnivector-solutions/layer-spark cerebello/docker-spark nmdp-bioinformatics/netMHC-spark andreoss/etoile savvydatainsights/spark yukia3e/learning-dataproc-spark kartzum/d-space GigahexHQ/docker-spark wojciech-zurek/kotlin-apache-spark-example 全部项目