Apache Arrow 3.0.0 发布了,该版本包含 2.0.0 发布以来修复的 678 个问题。Apache Arrow 是 Apache 基金会的顶级项目之一,目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。它包含一组规范的内存中的平面和分层数据表示,以及多种语言绑定以进行结构操作。 它还提供低架构流式传输和批量消息传递,零拷贝进程间通信(IPC)和矢量化的内存分析库。
部分更新内容
- [Python] 将 Combine_chunks 方法添加到 ChunkedArray
- [Rust] [Parquet] 修复 ArrowReader 在某些时间戳类型上失败的问题
- [R] 修复文件不存在时,read_feather 会在 R 中导致段错误的问题
- [Rust] 不再需要缓冲区的内存对齐
- [R] 修复 Arrow 不会释放未使用的内存的问题
- [Python] 支持 MapType 和 StructType 以增强 PySpark 集成
- [Rust] 添加对十进制数据类型的支持
- [C++][Parquet] 实现 parquet::FileMetaData::Equals
- [Python] 从支持列表中删除 Python 3.5
- [Python] 在 PyArrow 中公开 GetRecordBatchReader API
- [R] 为算术内核添加绑定
- [Rust] 将其他数组类型移动到其自己的模块中
详细内容请查看更新公告。
注意:本文归作者所有,未经作者允许,不得转载