SQL

Spark SQL是Apache Spark的用于处理结构化数据的模块.

Integrated

将SQL查询与Spark程序无缝混合.

Spark SQL使您可以使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据. 可在Java,Scala,Python和R中使用.

结果=火花. sql
"选择*来自人"
名称=结果. 地图lambda p:p.name
将函数应用于SQL查询的结果.

Uniform Data Access

以相同的方式连接到任何数据源.

DataFrame和SQL提供了一种访问各种数据源的通用方法,包括Hive,Avro,Parquet,ORC,JSON和JDBC. 您甚至可以跨这些源连接数据.

火花. read.json" s3n:// ..."
.registerTempTable(" json")
结果=火花. sql
"""选择 *
来自人
加入json ..."""
查询并联接不同的数据源.

Hive Integration

在现有仓库上运行SQL或HiveQL查询.

Spark SQL支持HiveQL语法以及Hive SerDes和UDF,从而使您可以访问现有的Hive仓库.

Spark SQL可以使用现有的Hive元存储库,SerDes和UDF.

Standard Connectivity

通过JDBC或ODBC连接.

服务器模式为商业智能工具提供了行业标准的JDBC和ODBC连接.

使用现有的BI工具来查询大数据.

Performance & Scalability

Spark SQL包括基于成本的优化器,列存储和代码生成,以加快查询速度. 同时,它使用Spark引擎扩展到数千个节点和数小时的查询,该引擎提供了完整的中查询容错能力. 不必担心为历史数据使用其他引擎.

Community

Spark SQL是Apache Spark的一部分. 因此,每个Spark版本都会对其进行测试和更新.

如果您对系统有疑问,请在Spark邮件列表中询问.

Spark SQL开发人员欢迎您提供帮助. 如果您想提供帮助,请阅读如何为Spark做出贡献 ,并向我们发送补丁!

Getting Started

要开始使用Spark SQL:

by  ICOPY.SITE