闪电般的统一分析引擎

Apache Spark™是用于大规模数据处理的统一分析引擎.

Speed

运行工作负载的速度提高了100倍.

Apache Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能.

Hadoop和Spark中的逻辑回归

Ease of Use

使用Java,Scala,Python,R和SQL快速编写应用程序.

Spark提供了80多个高级操作员,可轻松构建并行应用程序. 您可以从Scala,Python,R和SQL Shell 交互使用它.

df = spark.read.json("logs.json") df.where("年龄> 21")   .select("name.first").show()
Spark的Python DataFrame API
使用自动模式推断读取JSON文件

Generality

结合使用SQL,流和复杂的分析.

星火权力库,包括一叠SQL和DataFramesMLlib机器学习, GraphX星火流 . 您可以在同一应用程序中无缝组合这些库.

Spark SQL Spark Streaming MLlib (machine learning) GraphX

Runs Everywhere

Spark可在Hadoop,Apache Mesos,Kubernetes,独立或云中运行. 它可以访问各种数据源.

您可以在EC2Hadoop YARNMesosKubernetes上使用其独立集群模式运行Spark. 访问HDFSAlluxioApache CassandraApache HBaseApache Hive以及数百种其他数据源中的数据.

Community

Spark被广泛用于组织中以处理大型数据集. 您可以在Powered By页面上找到许多示例用例.

有很多联系社区的方法:

Contributors

Apache Spark由300多家公司的众多开发人员构建. 自2009年以来,已有1200多名开发人员为Spark!做贡献!

该项目的提交者来自25个以上的组织.

如果您想参加Spark或为它之上的图书馆做贡献 ,请学习如何贡献 .

Getting Started

无论您是来自Java,Scala,Python,R还是SQL背景,学习Apache Spark都很容易:

by  ICOPY.SITE