Apache Beam 2.25.0 发布,大数据流处理与批处理编程范式

偷懒的程序员 2020-10-26 09:49:42 ⋅ 119 阅读

Apache Beam 2.25.0 发布了。Beam 是一个用于定义和执行数据处理管道的统一编程模型,包括 ETL、批处理与流处理。Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,理想情况是基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。

此版本主要特性变更包括:

  • 在 ReadFromBigQuery 的 JSON 解码器中增加了对可重复字段的支持。(Python)
  • 为 Python SDK 添加了一个 opt-in、performance-driven 的运行时类型检查系统。
  • 添加了对使用 typed PCollections 的 PTransforms 上的 Python 3 类型注释的支持。
  • 改进了 Interactive Beam API,streaming jobs 现在可以启动长时间运行的后台录制作业。从 recording 中运行 ib.show() 或 ib.collect() samples。
  • 在 Interactive Beam 中,ib.show() 和 ib.collect() 现在具有“n”和“duration”作为参数。这些意味着最多只能读取“ n”个元素,并且最多只能从 recording 中读取“duration”秒的数据。
  • Dataframes 支持的初步预览。
  • 修复了 Python SDK 中对 @ptransform_fn 装饰符的类型提示支持。默认情况下未启用此功能以保持向后兼容性;可使用 --type_check_additional=ptransform_fn标志启用。在以后的 Beam 版本中,可能会默认启用它。
  • 添加了 X feature(Java/Python)。

详情查看更新说明:https://github.com/apache/beam/blob/master/CHANGES.md#2250---2020-10-23

 

全部评论: 0

    我有话说:

    Apache Beam 2.28.0 发布数据流处理批处理编程范式

    Apache Beam 2.28.0发布Beam 是一个用于定义和执行数据处理管道的统一编程模型,包括 ETL、批处理处理Beam 项目重点在于数据处理编程范式和接口定义,并不涉及具体

    Apache IoTDB 0.11.2 发布,物联网时序数据库

    Apache IoTDB 0.11.2 现已发布Apache IoTDB 是一个集成数据专为时间序列数据设计的管理引擎。它为用户提供以下服务:数据收集、存储和分析。由于其轻巧的结构,高

    Apache HBase 2.3.2 发布,分布式存储系统

    Apache HBase 2.3.2 已经发布。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC

    Apache Arrow 3.0.0 发布,内存数据交换格式

    Apache Arrow 3.0.0 发布了,该版本包含 2.0.0 发布以来修复的 678 个问题。Apache Arrow 是 Apache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来

    Apache Tomcat 8.5.59、9.0.39和10.0.0-M9发布

    Apache Tomcat 8.5.59, 9.0.39 和 10.0.0-M9 已发布。 8.5.x 已取代 8.0.x,并增加了从 Tomcat 9.0.x 中吸收的新功能。 8.5.58

    Apache HBase 最新发布2.0.4 ,分布式数据库

    HBase 2.0.4 主要修复了 2.0.3 和 2.1.1 版本中 HBASE-21551 Bug。此外还包括 31 项 Bug 修复。

    Apache Camel 3.6.0 发布,集成项目工具

    简介 Apache Camel 作为集成项目的利器,针对应用集成场景的抽象出了一套消息交互模型,通过组件的方式进行第三方系统的接入,目前 Apache Camel 已经提供了 300 多种

    Pulsar Flinkconnector 2.7.0 正式发布,支持最新版 Pulsar Flink

    Pulsar Flink 连接器 2.7.0 支持 Apache Pulsar 2.7.0Apache Flink 1.12 中的功能,并且 Flink连接器 和Flink 消息格式完全兼容

    Logstash 7.9.2 发布,开源服务端数据处理流程

    Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据,转换数据,然后将数据发送到你最喜欢的“存储库”中。目前,Logstash 7.9.2 已正式发布,该版本更新内容如下

    Taro 3.0.22 发布,BAT 小程序、H5 RN 端统一框架

    Taro 3.0.22 发布了。Taro 是一套遵循 React 语法规范的多端统一开发框架,支持用 React 的方式编写一次代码,生成能运行在微信小程序/百度智能小程序/支付宝小程序、H5

    程序员笔记 CherryTree 0.99.28 发布

    CherryTree 0.99.28 现已发布。CherryTree 是一个支持无限层级分类的笔记软件,Python 编写,支持富文本编辑和代码高亮,支持 Linux 和 Windows

    Julia 1.6.0 发布,高性能动态高级编程语言

    Julia 1.6.0 现已发布。Julia 是一个高性能动态高级编程语言。其拥有丰富的函数库,提供了数字精度、精致的增幅器和分布式并行运行方式。核心函数库等大多数库由 Julia 编写,但也用成熟

    Dgraph 1.2.8 发布,事务性分布式图形数据库

    Dgraph 1.2.8 发布了。Dgraph 是一个可扩展的,分布式的,低延迟的图数据库,目标是提供 Google 生产水平的规模和吞吐量,在超过 TB 的结构数据里,为用户提供足够低延迟的实时

    Apache Spark 3.0 发布,包含3400 多个补丁,TPC-DS 性能提升2倍。

    Spark 是用于数据处理数据科学,机器学习和数据分析等领域的统一引擎。

    TimescaleDB 2.0.2 发布,基于 PostgreSQL 的时序数据库

    TimescaleDB 2.0.2 现已发布,这是已个维护版本,包含了自 2.0.1 版本以来的 bugfixes,官方将其视为高度优先升级。TimescaleDB 是基于

    Zig 0.7.0 发布,想要替换 C 的编程语言

    Zig 0.7.0发布,这是一门通用编程语言,专为稳定性、可维护性和性能而设计,追求替代 C 语言在系统编程上的最佳地位。Zig 具有以下值得关注的特性: 手动管理内存 C 语言

    Web 爬虫 Apache Nutch 1.18 发布

    Apache Nutch 1.18 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常

    SQLite 3.34.0 发布,世界上使用量最数据库引擎

    SQLite 3.34.0 发布了,SQLite 是一个 C 实现的 SQL 数据库引擎,它的特点是小型、快速、自包含、高可靠性和功能齐全。SQLite 嵌入在所有手机和大多数计算机中,也捆绑在

    Jenkins 2.285 发布,Java 编写的持续集成工具

    Jenkins 是一款由 Java 编写的开源的持续集成工具。Jenkins 提供了软件开发的持续集成服务。它运行在 Servlet 容器中(例如 Apache Tomcat)。它支持软件配置管理