红联Linux门户
Linux帮助

Spark 2.0预览:更简单,更快,更智能

发布时间:2016-05-12 10:57:27来源:红联作者:baihuo
Apache Spark 2.0 技术预览在 Databricks Community Edition 发布。该预览包使用upstream branch-2.0构建,当启动Cluster时,使用预览包和选择“2.0 (Tech Preview)” 一样简单。

离最终的Apache Spark 2.0发布还有几个星期,现在先来看看有什么新特性:

更简单:SQL和简化的API

Spark 2.0依然拥有标准的SQL支持和统一的DataFrame/Dataset API。但我们扩展了Spark的SQL 性能,引进了一个新的ANSI SQL解析器并支持子查询。Spark 2.0可以运行所有的99 TPC-DS的查询,这需要很多的SQL:2003功能。

在编程API方面,我们已经简化了API:

统一Scala/Java下的DataFrames 和 Datasets

SparkSession

更简单、更高性能的Accumulator API

基于DataFrame的Machine Learning API 将成为主要的ML API

Machine Learning 管道持久性

R中的分布式算法

更快:Spark 作为一个编译器

Spark 2.0将拥有更快的速度

更智能:结构化数据流

通过在DataFrames之上构建持久化的应用程序来不断简化数据流,允许我们统一数据流,支持交互和批量查询。

软件详情:https://databricks.com/blog/2016/05/11/spark-2-0-technical-preview-easier-faster-and-smarter.html

下载地址:http://spark.apache.org/downloads.html

来自:开源中国社区
文章评论

共有 0 条评论