闪电般的统一分析引擎

该页面跟踪补充Apache Spark并添加到其生态系统中的外部软件项目.

要添加项目,请对spark-website存储库打开拉取请求. 在此markdown文件中添加一个条目,然后运行jekyll build来生成HTML. 在您的拉取请求中同时包含两者. 有关更多信息,请参见此仓库中的自述文件.

请注意,所有项目和产品名称均应遵循商标准则 .

spark-packages.org

spark-packages.org是社区管理的外部外部列表,这些列表与Apache Spark一起使用的第三方库,附加组件和应用程序. 只要您具有GitHub存储库,就可以添加软件包.

Infrastructure Projects

  • REST Job Server for Apache Spark - REST interface for managing and submitting Spark jobs on the same cluster (see blog post for details)
  • MLbase-基于Spark的机器学习研究项目
  • Apache Mesos-支持运行Spark的集群管理系统
  • AlluxionéeTachyon )-支持运行Spark的内存速度虚拟分布式存储系统
  • FiloDB -Spark集成的分析/列数据库,具有内存中选项,可进行亚秒级并发查询
  • Zeppelin-多功能笔记本,支持20多种语言后端,包括Apache Spark
  • EclairJS-使Node.js开发人员可以针对Spark进行编码,并使数据科学家可以在Jupyter笔记本中使用Javascript.
  • -Spark集群的无服务器代理(火花中间件)
  • 适用于Apache Spark的 K8S运算符-Kubernetes运算符,用于指定和管理Kubernetes上Apache Spark应用程序的生命周期.
  • IBM Spectrum Conductor-与Spark和现代计算框架集成的集群管理软件.
  • Delta Lake-存储层,为Apache Spark工作负载提供ACID事务和可伸缩的元数据处理.
  • MLflow-管理机器学习生命周期的开源平台,包括在Apache Spark上部署来自各种机器学习库的模型.
  • Koalas -Apache Spark上的数据框架API,它紧跟Python的熊猫.

Applications Using Spark

  • Apache Mahout-先前在Hadoop MapReduce上使用,Mahout已切换为使用Spark作为后端
  • Apache MRQL-基于Apache Hadoop,Hama和Spark构建的用于大规模分布式数据分析的查询处理和优化系统
  • BlinkDB-基于Shark和Spark的大规模并行,近似查询引擎
  • 主轴 -基于Spark / Parquet的Web分析查询引擎
  • Thunderain-将流处理与历史数据相结合的框架,请参考Lambda体系结构
  • 来自Ayasdi的DF -Spark的类似于Pandas的数据框架实现
  • Oryx -Apache Spark,Apache Kafka上的Lambda架构,用于实时大规模机器学习
  • ADAM-使用Apache Spark加载,转换和分析基因组数据的框架和CLI
  • TransmogrifAI -AutoML库,用于在Spark上构建模块化,可重用,强类型的机器学习工作流,而无需进行手动调整
  • Apache Spark的自然语言处理 -一个为机器学习管道提供简单,高效且准确的NLP注释的库
  • Rumble for Apache Spark-一个JSONiq引擎,使用功能语言查询不适合数据帧的大型,嵌套和异构JSON数据集.

Performance, Monitoring, and Debugging Tools for Spark

  • 性能和调试库 -一个用于分析Spark和PySpark应用程序的库,以提高性能并查找故障原因

Additional Language Bindings

C# / .NET

  • Mobius :C#和F#语言绑定以及Apache Spark的扩展

Clojure

Groovy

Julia

by  ICOPY.SITE