spark-PRO科技-PROSAGA

摘要(Abstract)

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎，高速发展应用广泛的生态系统。特点高级 API 剥离了对集群本身的关注，Spark 应用开发者可以专注于应用所要做的计算本身。 Spark 很快，支持交互式计算和复杂算法。 Spark 是一个通用引擎，可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等，而在 Spark 出现之前，我们一般需要学习各种各样的引擎来分别处理这些需求。内存计算下，Spark 比 Hadoop 快100倍。易用性 Spark 提供了80多个高级运算符。通用性 Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。多种资源管理器 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器 Shark：提供类HiveQL命令接口，实现query Parsing和 Logic Plan generation，PhysicalPlan execution阶段用Spark代替HadoopMapReduce。 SparkR：SparkR是一个为R提供了轻量级的Spark前端的R包。 Spark Streaming，Pregel on Spark

主题(Topic)

spring-boot-spark-starter spark

hive storn Chukwa zookeeper HDFS tez pig mahout druid cassandra flume titan sqoop Ambari hbase

spark sparkstreaming-kafka clustering-algorithm Dockerfile faiss pheonix sparkcore recommender d3 ml dataviz nice datavisualization excel-rdd apache-spark-dataset fp-growth kbqa angular2 spark-java thrift-server nan shiro-security predicate-pushdown lsh-algorithm cooccurrence tilelayer mllib hadood recommand-system springboot-spark d3js hibernate-jpa recommendation-algorithm product-relation spark-mllib product-recommendation kmeans spring-boot-spark-starter pipline hiveserver2 movie-recommendation jdbc-driver api-server spark-streaming-als als javscript sparksql kafka-streams spark-learning usercf

项目(Project)

全部项目