Web 爬虫 Apache Nutch 1.18 发布

喜欢吃鱼的青年 2021-01-26 11:25:01 ⋅ 1117 阅读

Apache Nutch 1.18 发布了。Nutch是一个成熟的、可用生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。

此版本包含 30 多个错误修复和改进,部分更新内容如下:

Bug 修复

  • javax.ws packaging.type 的可靠解决方案
  • 升级 lvy 以解决未设置 package.type 属性的问题
  • RobotsRulesParser 命令行检查器,以使用 http.robots.agents 作为后备
  • FreeGenerator 实际应用于提取列表的配置数量
  • MoreIndexingFilter-无法解析错误的日期

改进

  • MoreIndexingFilter 重构:将用于解析 “lastModified” 的数据格式移动到配置文件
  • 设置 Tika 1.19 中用于 MIME 检测的 XML SAX 解析池大小
  • 升级到 crawler-commons 1.1
  • 更新到 Tika 1.25
  • 把 commons-jexl 从 2 更新到 3

详细内容请查看更新公告


全部评论: 0

    我有话说:

    Apache Ant 1.10.10 发布

    Apache Ant 1.10.10发布Apache Ant 是一个将软件编译、测试、部署等步骤联系在一起加以自动化的一个工具,大多用于 Java 环境中的软件开发。 Apache Ant

    Apache Tomcat 8.5.59、9.0.39和10.0.0-M9发布

    Apache Tomcat 8.5.59, 9.0.39 和 10.0.0-M9 已发布。 8.5.x 已取代 8.0.x,并增加了从 Tomcat 9.0.x 中吸收的新功能。与 8.5.58

    Apache Flink 1.12.1 发布,流处理框架

    Apache Flink 1.12 系列的首个 bug 修复版本 1.12.1 已经发布。该版本包含 79 个修复和优化,因此官方强烈建议所有用户都升级到 1.12.1。 Maven 依赖 <

    Apache HBase 2.3.2 发布,分布式存储系统

    Apache HBase 2.3.2 已经发布。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC

    Apache Camel 3.6.0 发布,集成项目工具

    简介 Apache Camel 作为集成项目的利器,针对应用集成场景的抽象出了一套消息交互模型,通过组件的方式进行第三方系统的接入,目前 Apache Camel 已经提供了 300 多种

    Apache Beam 2.25.0 发布,大数据流处理与批处理编程范式

    Apache Beam 2.25.0 发布了。Beam 是一个用于定义和执行数据处理管道的统一编程模型,包括 ETL、批处理与流处理。Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体

    Angular 11.1.0-next.2 发布Web 前端框架

    Angular 11.1.0-next.2 现已发布,具体更新内容如下: Bug 修复 animations:在浏览器动画生成器中实现 getPosition compiler-cli

    Apache Wicket 9.3.0 发布,Java Web 开发框架

    Apache Wicket 9.3.0 现已发布。Wicket 是一个 Java 语言的 Web 开发框架,与 Struts、WebWork、Tapestry 相类似,其特点在于对

    Apache Superset 1.0 发布

    Apache 软件基金会近日宣布 Apache Superset 晋升为 ASF 顶级项目。与此同时,Apache Superset 也迎来了重大里程碑 1.0 版本

    Apache Kafka 2.7.1 发布

    Apache Kafka 2.7.1发布,这是一个 bugfix 版本,其中包括来自 45 个 JIRA 的修复和改进,还修复了部分严重的错误。 改进 [KAFKA-10852] - 优化

    Apache IoTDB 0.11.2 发布,物联网时序数据库

    Apache IoTDB 0.11.2 现已发布Apache IoTDB 是一个集成数据专为时间序列数据设计的管理引擎。它为用户提供以下服务:数据收集、存储和分析。由于其轻巧的结构,高

    Spring Boot 2.4.0-RC1, 2.1.18, 2.2.11 和 2.3.5 发布

    Spring Boot 多个分支发布了新版本,分别是 2.4.0-RC1, 2.1.18, 2.2.11 和 2.3.5。 Spring Boot 2.4.0-RC1 此版本是 

    Laravel 8.14.0 发布,PHP Web 开发框架

    Laravel 8.14.0 发布。Laravel 是 Taylor Otwell 开发的一款基于 PHP 语言的 Web 开源框架,采用了 MVC 的架构模式,2011 年 6 月首次发行

    Apache Kylin 3.1.1发布,开源分布式分析引擎

    Apache Kylin简介 Apache Kylin 是一个开源的分布式的 OLAP 分析引擎,来自 eBay 公司开发,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到

    VirtualBox 6.1.18 发布,开源虚拟机

    VirtualBox 6.1.18 现已发布。VirtualBox 是一款功能强大的 x86 虚拟机软件,它不仅具有丰富的特色,而且性能也很优异。 该版本是一个维护版本,修复和/或添加了以下项目

    Apache Solr 8.8.1 发布,Java 企业级搜索引擎

    Apache Solr 8.8.1 已发布,Solr 是基于 Lucene 的全文搜索服务器,也是最流行的企业级搜索引擎,其主要功能包括全文检索、命中高亮、分面搜索、动态聚类、数据库集成

    VirtualBox 6.1.20 发布,支持 Linux 5.11 & 5.12

    近日,VirtualBox 发布了 6.1.20 版本,也是该软件 6.1 版本系列的第十次更新。该版本增加了对 Linux Kernel 5.11 和 5.12 的支持。而且,对于 Linux

    Fastify 3.14.1 发布,将 master 更新为 main

    Fastify 3.14.1 发布了,Fastify 是一个高度专注于以最少开销和强大的插件架构为开发者提供最佳体验的 Node.js Web 框架,速度极快,它的灵感来源于 Hapi