更新内容:
Bug
在 JAXBCoder 中,使用 ThreadLocals 来缓存 Marshaller / Unmarshaller
通过 Broadcast 变量的容错 sideInputs
在批处理管道上强制执行流测试
Findbugs 无法通过 Spark runner
运行数小时后发生 ConcurrentModificationException 异常
以流模式添加 BigQueryIO.Write 的测试覆盖率
不存在的 gcpTempLocation 的数据流错误消息具有误导性
ValueProvider
Spark runner 无法在集群模式下反序列化 MicrobatchSource
当检查对 clean repo 的依赖性时创建的意外文件
输入 DStream“bundles” 应为序列化形式,并包含相关的元数据
在非嵌入模式下运行 apex runner 时发生异常
在 YARN 模式下与 apex runner 一起使用的不兼容的 httpclient 版本
无法在带有 VerifyError 的 SparkRunner 上运行
由于私人/公共选项不匹配,某些示例无法运行
flink KafkaIOExamples 提交错误
在 Window 类的文档中输入错误
BigQueryIO 不向用户显示加载作业错误
Combine with side inputs API 应匹配 ParDo
具有异型编码器的扁平化不具有 RunnableOnService 测试
在实施 PCollection 时删除 leaf,以避免重新评估
Flink on UnboundedSource 中的 java.io.NotSerializableException
BigQueryIO.Write: CREATE_IF_NEEDED 和 per-window tables 已损坏
在 setStateBackend 之后 FlinkPipelineOptions 序列化出错
PubSubIO:配置主题时抛出错误
WindowedWordCountIT 生成的输出位置很容易出现冲撞
AfterWatermarkEarlyAndLate 不调用早期触发器的 onMerge
改进
使 TestPipeline 实现 TestRule 接口
从 PTransforms 和 sub-classes 中移除 .named()方法
迁移 BoundedReadFromUnboundedSource 以使用 AutoValue 来减少样板
迁移 JmsIO 以使用 AutoValue 来减少样板
SparkRunner 应该使用 SDK 的 DoFnRunner,而不是写它自己的。
[SparkRunner] 用 DoFn 替换 OldDoFn
提高暂存文件时的性能
用 JavaSerializer 序列化注册的列表和源
向 PubsubIO 添加属性支持
对于所有支持的类型(Collection,Array,Enum)的 ValueProvider,应允许使用空字符串值
从 shaded spark runner artifact 中移除分类器
减少 spark runner 启动开销
使测试套件使用 @Rule TestPipeline
迁移剩余的测试以使用 TestPipeline 作为 JUnit 规则
从 BoundedSource 中移除 produceSortedKeys
用 Sum.[*]Fn classes 方法替换公共构造函数
在 Java SDK 中添加 ToString 变换
PAssert 应捕捉 assertion 站点
在 Dataflow 作业显现中使用全窗口值
KafkaIO: 在关闭阅读器时不记录偏移提取中的警告
改进 BigQueryServicesImpl 中的告警消息
新特性
PAssert 需要的健全性检查已可使用
创建 Elasticsearch IO
创建 MqttIO
在 DataflowRunner 中支持新的 State API
在 Direct runner 中支持新的 Timer API
软件详情:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12319527&version=12338859
下载地址:https://www.apache.org/dyn/closer.cgi?filename=beam/0.5.0/apache-beam-0.5.0-source-release.zip&action=download
来自:开源中国社区

