MLlib

MLlib是Apache Spark的可扩展机器学习库.

Ease of Use

在Java,Scala,Python和R中可用.

MLlib适用于Spark的API,并且可以与Python(自Spark 0.9起)和R库(自Spark 1.5起)中的NumPy互操作. 您可以使用任何Hadoop数据源(例如HDFS,HBase或本地文件),从而轻松插入Hadoop工作流.

数据= spark.read.format( " libsvm" )\
.load( " hdfs:// ..."

模型= KMeans (k = 10).fit(数据)
在Python中调用MLlib

Performance

高质量算法,比MapReduce快100倍.

Spark擅长于迭代计算,从而使MLlib快速运行. 同时,我们关注算法性能:MLlib包含利用迭代的高质量算法,并且比有时在MapReduce上使用的单遍逼近可以产生更好的结果.

Hadoop和Spark中的逻辑回归

Runs Everywhere

Spark可针对各种数据源在Hadoop,Apache Mesos,Kubernetes上独立运行或在云中运行.

您可以在EC2Hadoop YARNMesosKubernetes上使用其独立集群模式运行Spark. 访问HDFSApache CassandraApache HBaseApache Hive以及数百种其他数据源中的数据.

Algorithms

MLlib包含许多算法和实用程序.

ML算法包括:

  • 分类:逻辑回归,朴素贝叶斯,...
  • 回归:广义线性回归,生存回归,...
  • 决策树,随机森林和梯度增强树
  • 建议:交替最小二乘法(ALS)
  • 聚类:K-均值,高斯混合(GMM),...
  • 主题建模:潜在Dirichlet分配(LDA)
  • 频繁项集,关联规则和顺序模式挖掘

ML工作流实用程序包括:

  • 功能转换:标准化,规范化,哈希,...
  • ML管道建设
  • 模型评估和超参数调整
  • ML持久性:保存和加载模型和管道

其他实用程序包括:

  • 分布式线性代数:SVD,PCA,...
  • 统计:摘要统计,假设检验,...

有关用法示例,请参考MLlib指南 .

Community

MLlib是Apache Spark项目的一部分. 因此,每个Spark版本都会对其进行测试和更新.

如果您对库有疑问,请在Spark邮件列表中询问.

MLlib仍是一个快速发展的项目,欢迎您的贡献. 如果您想向MLlib提交算法,请阅读如何为Spark做出贡献并向我们发送补丁!

Getting Started

要开始使用MLlib:

  • 下载Spark . MLlib作为模块包含在内.
  • 阅读MLlib指南 ,其中包括各种用法示例.
  • 如果您想在分布式模式下运行,请了解如何在群集上部署 Spark. 您也可以在没有任何设置的情况下在多核计算机上本地运行.

by  ICOPY.SITE