通过高级操作员构建应用程序.
Spark Streaming将Apache Spark的语言集成API引入流处理,使您可以像编写批处理作业一样编写流作业. 它支持Java,Scala和Python.
开箱即用的有状态精确语义.
Spark Streaming可以立即恢复丢失的工作和操作员状态(例如,滑动窗口),而无需任何额外的代码.
将流与批处理和交互式查询结合在一起.
通过在Spark上运行,Spark Streaming可让您将相同的代码重用于批处理,针对历史数据加入流或对流状态运行临时查询. 构建功能强大的交互式应用程序,而不仅仅是分析.
Spark Streaming可以从HDFS , Flume , Kafka , Twitter和ZeroMQ读取数据. 您还可以定义自己的自定义数据源.
您可以在Spark的独立集群模式或其他受支持的集群资源管理器上运行Spark Streaming. 它还包括用于开发的本地运行模式. 在生产中,Spark Streaming使用ZooKeeper和HDFS来实现高可用性.
Spark Streaming是Apache Spark的一部分. 因此,每个Spark版本都会对其进行测试和更新.
如果您对系统有疑问,请在Spark邮件列表中询问.
Spark Streaming开发人员欢迎您的贡献. 如果您想提供帮助,请阅读如何为Spark做出贡献 ,并向我们发送补丁!
要开始使用Spark Streaming: