闪电般的统一分析引擎

Apache Spark FAQ

Spark与Apache Hadoop有何关系?

Spark是与Hadoop数据兼容的快速通用处理引擎. 它可以通过YARN或Spark的独立模式在Hadoop群集中运行,并且可以处理HDFS,HBase,Cassandra,Hive和任何Hadoop InputFormat中的数据. 它旨在执行批处理(类似于MapReduce)和新的工作负载,例如流,交互式查询和机器学习.

谁在生产中使用Spark?

截至2016年,调查显示有1000多家组织在生产中使用Spark. 其中一些列出在Powered By页面Spark Summit上 .

Spark可以扩展到多大的集群?

许多组织在成千上万个节点的群集上运行Spark. 我们知道的最大集群有8000个. 在数据大小方面,Spark已证明可以达到PB级. 与Hadoop MapReduce相比,它在1/10的计算机上用于排序100 TB数据的速度快了3倍, 赢得了2014年Daytona GraySort Benchmark以及1 PB的排序 . 一些生产工作负载使用Spark对数据PB进行ETL和数据分析 .

我的数据是否需要容纳在内存中才能使用Spark?

不可以.Spark的操作员会在不适合内存的情况下将数据溢出到磁盘上,从而使其可以在任何大小的数据上正常运行. 同样,根据RDD的存储级别确定,不适合内存的缓存数据集会溢出到磁盘或在需要时即时重新计算.

如何在集群上运行Spark?

您可以使用仅需要在每个节点上安装Java的独立部署模式 ,也可以使用MesosYARN集群管理器. 如果您想在Amazon EC2上运行,则AMPLab提供EC2脚本来自动启动集群.

请注意,您也可以通过仅将local[N]作为主URL传递,而无需任何特殊设置就可以在本地运行Spark(可能在多个内核上),其中N是所需的并行线程数.

我需要Hadoop运行Spark吗?

否,但是如果您在集群上运行,则将需要某种形式的共享文件系统(例如,将NFS安装在每个节点的相同路径上). 如果您具有这种类型的文件系统,则可以仅在独立模式下部署Spark.

Spark是否需要Scala或Python的修改版本?

不需要.Spark不需要更改Scala或编译器插件. Python API使用标准的CPython实现,并且可以调用现有的Python C库,例如NumPy.

我了解Spark Streaming使用微批处理. 这会增加延迟吗?

尽管Spark确实使用了微批处理执行模型,但这对应用程序影响不大,因为批处理可能短至0.5秒. 在大多数流式传输大数据的应用程序中,分析是在较大的窗口(例如10分钟)内完成的,或者获取数据的延迟时间较长(例如,传感器每10秒收集一次读数). Spark的模型实现了一次精确的语义和一致性 ,这意味着即使节点速度缓慢或出现故障,系统也可以给出正确的结果.

在哪里可以找到Spark徽标的高分辨率版本?

We provide versions here: black logo, white logo. Please be aware that Spark, Apache Spark and the Spark logo are trademarks of the Apache Software Foundation, and follow the Foundation's trademark policy in all uses of these logos.

我可以提供基于Spark的商业软件或服务吗?

是的,只要您遵守Apache Software Foundation的软件许可商标政策 . 特别要注意的是,第三方产品如何使用" Spark"名称受到严格限制(通常不允许使用基于Spark的名称). 另请参阅我们的商标政策摘要 .

我如何为Spark贡献力量?

有关更多信息,请参见Contributing to Spark Wiki .

在哪里可以获得更多帮助?

请张贴在StackOverflow的apache-spark标签或Spark Users邮件列表中. 有关更多信息,请参阅有问题吗? . 我们很乐意为您提供帮助!

by  ICOPY.SITE