红联Linux门户
Linux帮助

Apache Beam 0.5.0发布,大数据批处理和流处理标准

发布时间:2017-02-10 09:17:24来源:红联作者:baihuo
Apache Beam 0.5.0 发布了,Apache Beam 是 Google 在2016年2月份贡献给 Apache 基金会的项目,主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK。Apache Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam 希望基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。

更新内容:

Bug

在 JAXBCoder 中,使用 ThreadLocals 来缓存 Marshaller / Unmarshaller

通过 Broadcast 变量的容错 sideInputs

在批处理管道上强制执行流测试

Findbugs 无法通过 Spark runner

运行数小时后发生 ConcurrentModificationException 异常

以流模式添加 BigQueryIO.Write 的测试覆盖率

不存在的 gcpTempLocation 的数据流错误消息具有误导性

ValueProvider 应允许使用空字符串值

Spark runner 无法在集群模式下反序列化 MicrobatchSource

当检查对 clean repo 的依赖性时创建的意外文件

输入 DStream“bundles” 应为序列化形式,并包含相关的元数据

在非嵌入模式下运行 apex runner 时发生异常

在 YARN 模式下与 apex runner 一起使用的不兼容的 httpclient 版本

无法在带有 VerifyError 的 SparkRunner 上运行

由于私人/公共选项不匹配,某些示例无法运行

flink KafkaIOExamples 提交错误

在 Window 类的文档中输入错误

BigQueryIO 不向用户显示加载作业错误

Combine with side inputs API 应匹配 ParDo

具有异型编码器的扁平化不具有 RunnableOnService 测试

在实施 PCollection 时删除 leaf,以避免重新评估

Flink on UnboundedSource 中的 java.io.NotSerializableException

BigQueryIO.Write: CREATE_IF_NEEDED 和 per-window tables 已损坏

在 setStateBackend 之后 FlinkPipelineOptions 序列化出错

PubSubIO:配置主题时抛出错误

WindowedWordCountIT 生成的输出位置很容易出现冲撞

AfterWatermarkEarlyAndLate 不调用早期触发器的 onMerge

改进

使 TestPipeline 实现 TestRule 接口

从 PTransforms 和 sub-classes 中移除 .named()方法

迁移 BoundedReadFromUnboundedSource 以使用 AutoValue 来减少样板

迁移 JmsIO 以使用 AutoValue 来减少样板

SparkRunner 应该使用 SDK 的 DoFnRunner,而不是写它自己的。

[SparkRunner] 用 DoFn 替换 OldDoFn

提高暂存文件时的性能

用 JavaSerializer 序列化注册的列表和源

向 PubsubIO 添加属性支持

对于所有支持的类型(Collection,Array,Enum)的 ValueProvider,应允许使用空字符串值

从 shaded spark runner artifact 中移除分类器

减少 spark runner 启动开销

使测试套件使用 @Rule TestPipeline

迁移剩余的测试以使用 TestPipeline 作为 JUnit 规则

从 BoundedSource 中移除 produceSortedKeys

用 Sum.[*]Fn classes 方法替换公共构造函数

在 Java SDK 中添加 ToString 变换

PAssert 应捕捉 assertion 站点

在 Dataflow 作业显现中使用全窗口值

KafkaIO: 在关闭阅读器时不记录偏移提取中的警告

改进 BigQueryServicesImpl 中的告警消息

新特性

PAssert 需要的健全性检查已可使用

创建 Elasticsearch IO

创建 MqttIO

在 DataflowRunner 中支持新的 State API

在 Direct runner 中支持新的 Timer API

软件详情:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12319527&version=12338859

下载地址:https://www.apache.org/dyn/closer.cgi?filename=beam/0.5.0/apache-beam-0.5.0-source-release.zip&action=download

来自:开源中国社区
文章评论

共有 0 条评论