Apache Beam 2.28.0 发布,大数据流处理与批处理编程范式

老王Plus 2021-03-01 13:38:20 ⋅ 789 阅读

Apache Beam 2.28.0 已发布,Beam 是一个用于定义和执行数据处理管道的统一编程模型,包括 ETL、批处理与流处理。Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,理想情况是基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。

更新亮点

I/Os

SpannerIO 支持面向 Numeric 字段使用 BigDecimal (BEAM-11643)

  • 将 Beam schema 支持添加到 ParquetIO (BEAM-11526)
  • 支持 ParquetTable Writer (BEAM-8202)
  • GCP BigQuery sink (streaming inserts) 使用 runner 已确定的分片 (BEAM-11408)
  • PubSub 支持类型:TIMESTAMP, DATE, TIME, DATETIME (BEAM-11533)

新特性/改进

  • ParquetIO 添加 readGenericRecords 和 readFilesGenericRecords 方法可以读取具有未知 schema 的文件。详情查看 PR-13554 和 (BEAM-11460)
  • 添加对 KafkaTableProvider 中 thrift 的支持 (BEAM-11482)
  • 添加对 HadoopFormatIO 的支持以跳过 key/value 克隆 (BEAM-11457)
  • 在 Convert.to 转换中支持转换为 GenericRecords (BEAM-11571)
  • 支持读取未知 schema 的 Parquet 文件 (BEAM-11460)

发布公告


全部评论: 0

    我有话说:

    Apache Beam 2.25.0 发布数据流处理批处理编程范式

    Apache Beam 2.25.0 发布了。Beam 是一个用于定义和执行数据处理管道的统一编程模型,包括 ETL、批处理处理Beam 项目重点在于数据处理编程范式和接口定义,并不涉及具体

    Apache IoTDB 0.11.2 发布,物联网时序数据库

    Apache IoTDB 0.11.2 现已发布Apache IoTDB 是一个集成数据专为时间序列数据设计的管理引擎。它为用户提供以下服务:数据收集、存储和分析。由于其轻巧的结构,高

    Apache HBase 2.3.2 发布,分布式存储系统

    Apache HBase 2.3.2 已经发布。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC

    Apache Arrow 3.0.0 发布,内存数据交换格式

    Apache Arrow 3.0.0 发布了,该版本包含 2.0.0 发布以来修复的 678 个问题。Apache Arrow 是 Apache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来

    Apache Tomcat 8.5.59、9.0.39和10.0.0-M9发布

    Apache Tomcat 8.5.59, 9.0.39 和 10.0.0-M9 已发布。 8.5.x 已取代 8.0.x,并增加了从 Tomcat 9.0.x 中吸收的新功能。 8.5.58

    程序员笔记 CherryTree 0.99.28 发布

    CherryTree 0.99.28 现已发布。CherryTree 是一个支持无限层级分类的笔记软件,Python 编写,支持富文本编辑和代码高亮,支持 Linux 和 Windows

    Apache HBase 最新发布2.0.4 ,分布式数据库

    HBase 2.0.4 主要修复了 2.0.3 和 2.1.1 版本中 HBASE-21551 Bug。此外还包括 31 项 Bug 修复。

    Apache Camel 3.6.0 发布,集成项目工具

    简介 Apache Camel 作为集成项目的利器,针对应用集成场景的抽象出了一套消息交互模型,通过组件的方式进行第三方系统的接入,目前 Apache Camel 已经提供了 300 多种

    Pulsar Flinkconnector 2.7.0 正式发布,支持最新版 Pulsar Flink

    Pulsar Flink 连接器 2.7.0 支持 Apache Pulsar 2.7.0Apache Flink 1.12 中的功能,并且 Flink连接器 和Flink 消息格式完全兼容

    Logstash 7.9.2 发布,开源服务端数据处理流程

    Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据,转换数据,然后将数据发送到你最喜欢的“存储库”中。目前,Logstash 7.9.2 已正式发布,该版本更新内容如下

    Taro 3.0.22 发布,BAT 小程序、H5 RN 端统一框架

    Taro 3.0.22 发布了。Taro 是一套遵循 React 语法规范的多端统一开发框架,支持用 React 的方式编写一次代码,生成能运行在微信小程序/百度智能小程序/支付宝小程序、H5

    Julia 1.6.0 发布,高性能动态高级编程语言

    Julia 1.6.0 现已发布。Julia 是一个高性能动态高级编程语言。其拥有丰富的函数库,提供了数字精度、精致的增幅器和分布式并行运行方式。核心函数库等大多数库由 Julia 编写,但也用成熟

    Dgraph 1.2.8 发布,事务性分布式图形数据库

    Dgraph 1.2.8 发布了。Dgraph 是一个可扩展的,分布式的,低延迟的图数据库,目标是提供 Google 生产水平的规模和吞吐量,在超过 TB 的结构数据里,为用户提供足够低延迟的实时

    Apache Spark 3.0 发布,包含3400 多个补丁,TPC-DS 性能提升2倍。

    Spark 是用于数据处理数据科学,机器学习和数据分析等领域的统一引擎。

    TimescaleDB 2.0.2 发布,基于 PostgreSQL 的时序数据库

    TimescaleDB 2.0.2 现已发布,这是已个维护版本,包含了自 2.0.1 版本以来的 bugfixes,官方将其视为高度优先升级。TimescaleDB 是基于

    Zig 0.7.0 发布,想要替换 C 的编程语言

    Zig 0.7.0发布,这是一门通用编程语言,专为稳定性、可维护性和性能而设计,追求替代 C 语言在系统编程上的最佳地位。Zig 具有以下值得关注的特性: 手动管理内存 C 语言

    SQLite 3.34.0 发布,世界上使用量最数据库引擎

    SQLite 3.34.0 发布了,SQLite 是一个 C 实现的 SQL 数据库引擎,它的特点是小型、快速、自包含、高可靠性和功能齐全。SQLite 嵌入在所有手机和大多数计算机中,也捆绑在

    Web 爬虫 Apache Nutch 1.18 发布

    Apache Nutch 1.18 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常

    Jenkins 2.285 发布,Java 编写的持续集成工具

    Jenkins 是一款由 Java 编写的开源的持续集成工具。Jenkins 提供了软件开发的持续集成服务。它运行在 Servlet 容器中(例如 Apache Tomcat)。它支持软件配置管理