「开源资讯」DataX Web 2.1.2 发布,分布式数据同步工具

qiaohhgz 2020-07-02 14:09:11 ⋅ 613 阅读

DataX Web简介

DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl-job可根据时间、自增主键增量同步数据。

任务"执行器"支持集群部署,支持执行器多节点路由策略选择,支持超时控制、失败重试、失败告警、任务依赖,执行器CPU.内存.负载的监控等等。后续还将提供更多的数据源支持、数据转换UDF、表结构同步、数据同步血缘等更为复杂的业务场景。

v-2.1.2更新内容


新增


添加项目管理模块,可对任务分类管理;对RDBMS数据源增加批量任务创建功能,选择数据源,表即可根据模板批量生成DataX同步任务;JSON构建增加ClickHouse数据源支持;执行器CPU.内存.负载的监控页面图形化;RDBMS数据源增量抽取增加主键自增方式并优化页面参数配置;更换MongoDB数据源连接方式,重构HBase数据源JSON构建模块;脚本类型任务增加停止功能;rdbms json构建增加postSql,并支持构建多个preSql,postSql;合并datax-registry模块到datax-rpc中;数据源信息加密算法修改及代码优化;时间增量同步支持更多时间格式;日志页面增加DataX执行结果统计数据;

升级:


PostgreSql,SQLServer,Oracle 数据源JSON构建增加schema name选择;DataX JSON中的字段名称与数据源关键词一致问题优化;任务管理页面按钮展示优化;日志管理页面增加任务描述信息;JSON构建前端form表单不能缓存数据问题修复;HIVE JSON构建增加头尾选项参数;

System Requirements


Language: Java 8(jdk版本建议1.8.201以上)<br>Python2.7(支持Python3需要修改替换datax/bin下面的三个python文件,替换文件在doc/datax-web/datax-python3下)Environment: MacOS, Windows,LinuxDatabase: Mysql5.7

Introduction:

1.执行器配置(使用开源项目xxl-job)

  • 1、"调度中心OnLine:"右侧显示在线的"调度中心"列表, 任务执行结束后, 将会以failover的模式进行回调调度中心通知执行结果, 避免回调的单点风险;

  • 2、"执行器列表" 中显示在线的执行器列表, 可通过"OnLine 机器"查看对应执行器的集群机器;

执行器属性说明


1、AppName: (与datax-executor中application.yml的datax.job.executor.appname保持一致) 每个执行器集群的唯一标示AppName, 执行器会周期性以AppName为对象进行自动注册。可通过该配置自动发现注册成功的执行器, 供任务调度时使用;2、名称: 执行器的名称, 因为AppName限制字母数字等组成,可读性不强, 名称为了提高执行器的可读性;3、排序: 执行器的排序, 系统中需要执行器的地方,如任务新增, 将会按照该排序读取可用的执行器列表;4、注册方式:调度中心获取执行器地址的方式;自动注册:执行器自动进行执行器注册,调度中心通过底层注册表可以动态发现执行器机器地址;手动录入:人工手动录入执行器的地址信息,多地址逗号分隔,供调度中心使用;5、机器地址:"注册方式"为"手动录入"时有效,支持人工维护执行器的地址信息;

2.创建数据源


第四步使用

3.创建任务模版


第四步使用

4. 构建JSON脚本

  • 1.步骤一,步骤二,选择第二步中创建的数据源,JSON构建目前支持的数据源有hive,mysql,oracle,postgresql,sqlserver,hbase,mongodb,clickhouse 其它数据源的JSON构建正在开发中,暂时需要手动编写。


  • 2.字段映射


  • 3.点击构建,生成json,此时可以选择复制json然后创建任务,选择datax任务,将json粘贴到文本框。也可以点击选择模版,直接生成任务。


5.批量创建任务



6.任务创建介绍(关联模版创建任务不再介绍,具体参考4. 构建JSON脚本)

DataX任务


Shell任务


Python任务


PowerShell任务

任务类型:目前支持DataX任务、Shell任务、Python任务、PowerShell任务;阻塞处理策略:调度过于密集执行器来不及处理时的处理策略;单机串行:调度请求进入单机执行器后,调度请求进入FIFO队列并以串行方式运行;丢弃后续调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,本次请求将会被丢弃并标记为失败;覆盖之前调度:调度请求进入单机执行器后,发现执行器存在运行的调度任务,将会终止运行中的调度任务并清空队列,然后运行本地调度任务;增量增新建议将阻塞策略设置为丢弃后续调度或者单机串行设置单机串行时应该注意合理设置重试次数(失败重试的次数*每次执行时间<任务的调度周期),重试的次数如果设置的过多会导致数据重复,例如任务30秒执行一次,每次执行时间需要20秒,设置重试三次,如果任务失败了,第一个重试的时间段为1577755680-1577756680,重试任务没结束,新任务又开启,那新任务的时间段会是1577755680-1577758680


7. 任务列表


8. 可以点击查看日志,实时获取日志信息,终止正在执行的datax进程


9.任务资源监控

10. admin可以创建用户,编辑用户信息




全部评论: 0

    我有话说:

    开源资讯】Spring Data 2020.0 RC2 发布

    Spring Data 2020.0 RC2 发布了。Spring Data 项目的目的是简化构建基于 Spring 框架应用的数据访问计数,包括非关系数据库、Map-Reduce 框架

    Dgraph 1.2.8 发布,事务性分布式图形数据库

    Dgraph 1.2.8 发布了。Dgraph 是一个可扩展的,分布式的,低延迟的图数据库,目标是提供 Google 生产水平的规模和吞吐量,在超过 TB 的结构数据里,为用户提供足够低延迟的实时

    Syncthing 1.11.0 和 1.11.1 发布,连续文件同步工具

    Syncthing 是一个免费开源的工具,它能在你的各个网络计算机间同步文件/文件夹,它的同步数据是直接从一个系统中直接传输到另一个系统的,并且它是安全且私密的。 Syncthing 1

    Spring Cloud Data Flow 2.7.1 发布

    Spring Cloud Data Flow 2.7.1 发布了。Spring Cloud Data Flow 是构建数据集成和实时数据处理流水线的工具包。 主要更新内容 UI 错误修复

    开源资讯】cppweb 1.0.2 发布,基于 C++ 开发Web 服务器

    cppweb是一个基于C++开发WEB 服务器,支持C/C++、Python、Java等多语言混合开发WEB应用。 cppweb同时也是一个跨平台的微服务开发框架,通过两个核心组件

    Simplenote 2.9.0 发布开源跨平台云笔记工具

    Simplenote 2.9.0 发布了。Simplenote 是一个简单、轻量级的跨平台云笔记工具,可以用来保存文字、表格、代码等信息,用户记录的内容可以与所有设备保持同步。Simplenote

    开源资讯」Guava 28.2 发布,Google 的 Java 核心工具

    前言 Guava 28.2 发布了,Guava 是 Google 的一个开源项目,包含许多 Google 核心 Java 常用库,如:集合 [collections] 、缓存 [caching

    TeamCity 2021.1 EAP2 发布,持续集成工具

    TeamCity 2021.1 EAP2 发布了。TeamCity 是一款功能强大的持续集成工具,覆盖服务器端和客户端。它提供一系列特性可以让团队快速实现持续集成:IDE 工具集成、各种消息通知

    Netbox 2.11.1 发布,IP 地址与数据中心管理工具

    NetBox 是一个 IP 地址管理(IP address management,IPAM)和数据中心基础设施管理(data center infrastructure management

    工具集001

      1.  Google项目管理工具 Tables   2. 终端 taskwarrior --- TODO List Taskwarrior is

    开源资讯】Electron 10.1.4 发布,跨平台桌面应用开发工具

    简介 Electron 是 GitHub 发布的跨平台桌面应用开发工具,支持 Web 技术开发桌面应用,其本身是基于 C++ 开发的,GUI 核心来自于 Chrome,而

    开源资讯】Spring Boot 2.4.0.M4 发布

    Spring Boot 2.4.0 的第四个里程碑版本发布了,可以从里程碑仓库获取。此版本包含 145 项更新内容,亮点如下:1、改进故障分析器(Failure Analyzer

    Python数据计算工具 PyMiner v2.1.0 Beta 发布!LGPL协议生效!

    PyMiner 是一个类似MATLAB的,但基于python的GUI数据计算工具,通过集成ipython和工作空间、编辑器、绘图、应用插件开发系统、统计和模型相关内容,用户可以在统一的界面程序中的

    TimescaleDB 2.1.1 发布,基于 PostgreSQL 的时序数据库

    TimescaleDB 2.1.1 现已发布,这是一个维护版本,包含了自 2.1.0 版本以来的 bugfixes,官方将其视为高度优先升级。TimescaleDB 是基于

    Logstash 7.9.2 发布开源服务端数据处理流程

    Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据,转换数据,然后将数据发送到你最喜欢的“存储库”中。目前,Logstash 7.9.2 已正式发布,该版本更新内容如下

    Apache HBase 最新发布2.0.4 ,分布式数据库

    HBase 2.0.4 主要修复了 2.0.3 和 2.1.1 版本中 HBASE-21551 Bug。此外还包括 31 项 Bug 修复。

    Angular 11.1.0-next.2 发布Web 前端框架

    Angular 11.1.0-next.2 现已发布,具体更新内容如下: Bug 修复 animations:在浏览器动画生成器中实现 getPosition compiler-cli

    Symfony 5.2.2 发布,经典 PHP Web 开发框架

    Symfony 是一款基于 MVC 架构的 PHP 框架,致力于减少重复代码的编写,以加速 Web 应用的开发和维护。Symfony 与许多关系型数据库集成的也非常好,成本也较小

    开源资讯」.NET 5.0 RC 2 发布

    微软上周发布了 .NET 5.0 RC 2,此版本已接近最终发布,也是11月正式版发布前的最后一个 RC 版本。微软还表示这是一个“go live”版本,支持用于生产环境,当然这不是指稳定性方面具备