如何使用DataChecker保证迁移后数据的正确性?

openGauss小助手
业界专家认证
2024-03-11 14:54:19

前面我们已经为大家介绍了如何从Oracle或MySQL迁移到openGauss的几个工具,那么,我们如何保证迁移后数据的正确性呢?接下来请让我为大家介绍今天的主角-DataChecker。

DataChecker介绍:

DataChecker是一个用Java语言编写的检验两个数据库间数据一致性的工具,其中部分架构和实现参考了阿里巴巴开源的数据迁移工具yugong。

代码仓:https://gitee.com/opengauss/openGauss-tools-datachecker

使用场景

一般情况下用于数据迁移完成之后的正确性校验。在将大量数据从一个数据库迁移至另一个数据库后,往往需要确定迁移过去的数据是否正确、完整。DataChecker就是用来检验两边数据库中的数据是否一致的工具。

实现原理

整个DataChecker的实现架构主要分为两部分:Extractor 和 Applier。

Extractor 即“提取器”,功能是提取源数据库中的数据(源数据库即为迁移前的数据库)。提取方式为顺序提取,按照数据在原表中的顺序分批提取出来。

Applier 即“实施器”,功能是根据Extractor提取出来的数据,在目标数据库(即迁移后的数据库)中找到对应的数据,进行字段逐一对比并返回结果。

使用方法

环境要求

操作系统

纯java开发,有bat和shell脚本,windows/linux均可支持。

jdk建议使用1.6.25以上的版本。

数据库

源库支持MySQL,后续将增加对Oracle的支持。

目标库仅支持openGauss数据库。

下载datachecker

可访问https://gitee.com/opengauss/openGauss-tools-datachecker 下载源码及编译完成的包。

自己编译:

git clone git@gitee.com:opengauss/openGauss-tools-datachecker.git

cd openGauss-tools-datachecker

mvn clean install -Dmaven.test.skip -Denv=release

若不想自己编译,clone下来的主目录有个target文件夹,里面有个DataChecker-1.0.0-SNAPSHOT.tar.gz,即为编译好的二进制包。

目录结构介绍

Target目录下的结构为:

/target

        bin/    

              startup.bat

   startup.sh

   stop.sh

        conf/      

              gauss.properties

              logback.xml

        lib/               

        logs/      

 

bin目录下有两个文件,分别为windows和linux下的程序启动及停止文件startup.bat 和 startup.sh、stop.sh。

conf目录下也有两个文件,为配置文件,一般情况下只配置gauss.properties。

lib目录下存放的是运行所需的依赖文件。

Logs目录下存放的是运行之后的结果日志

修改配置

在/conf/ gauss.properties中修改配置。一般情况下,只需修改源库和目标库的地址信息、本次需要校验的表等基本信息,其他的可以使用默认值或灵活修改。

参数名字

参数说明

默认值

gauss.database.source.username

源数据库的用户名

gauss.database.source.password

源数据库的密码

gauss.database.source.type

源数据库的类型

Mysql

gauss.database.source.url

源数据库的连接url,须遵循一定的格式

gauss.database.source.encode

源数据库的编码格式

UTF-8

gauss.database.target.username

目标数据库的用户名

gauss.database.target.password

目标数据库的密码

gauss.database.target.type

目标数据库的类型

OPGS(即openGauss)

gauss.database.target.url

目标数据库的连接url,须遵循一定的格式

gauss.database.target.encode

目标数据库的编码

UTF-8

gauss.table.onceCrawNum

extractor/applier每个批次最多处理记录数

1000

gauss.table.tpsLimit

tps限制,0代表不限制

0

gauss.table.skipApplierException

true代表当applier出现数据库异常时,比如约束键冲突,可对单条出异常的数据进行忽略

False

gauss.table.white

白名单。定义需要进行校验的表:

格式为schema.tablename组成,多个表可加逗号分隔。如想要校验一个schema下面的所有表,则填schema的名字即可

gauss.table.black

黑名单,需要忽略的表。格式同gauss.table.white

gauss.table.inc.tablepks

需要进行校验的表的主键,方便加快校验速度。格式为:tablename1&pk1&pk2|tablename2&pk1

gauss.table.concurrent.enable

多张表之前是否开启并行处理,如果false代表需要串行处理

true

gauss.table.concurrent.size

允许并行处理的表数

5

gauss.table.retry.times

表校验出错后的重试次数

3

gauss.extractor.dump

是否记录extractor提取到的所有数据

false

gauss.extractor.concurrent.global

extractor是启用全局线程池模式,如果true代表所有extractor任务都使用一组线程池,线程池大小由concurrent.size控制

false

gauss.extractor.concurrent.size

允许并行处理的线程数,需要先开启concurrent.enable该参数才会生效

30

gauss.applier.dump

是否记录applier提取到的所有数据

false

gauss.applier.concurrent.enable

applier是否开启并行处理

true

gauss.applier.concurrent.global

applier是启用全局线程池模式,如果true代表所有applier任务都使用一组线程池,线程池大小由concurrent.size控制

false

gauss.applier.concurrent.size

允许并行处理的线程数,需要先开启concurrent.enable该参数才会生效

30

gauss.stat.print.interval

统计信息打印频率.

频率为5,代表,完成5轮extract/applier后,打印一次统计信息

5

启动停止

Linux启动

sh startup.sh

Linux停止

sh stop.sh  

windows启动

windows启动

windows停止

直接关闭终端即可。

日志说明

日志结构为:

/logs

        summary/    

               summary.log

       gauss/      

               table.log ${table}/           

        table.log

        extractor.log

        applier.log

        check.log   

gauss目录下的table.log为整个校验过程的总日志。

summary目录下的summary.log记录了所有校验结果为不正确的表名(即两边表的数据不一致)。

${table} 为各个表的表名,其下的table.log为该表的校验过程总日志,extractor.log为数据提取过程的总日志,applier.log为校验实施(数据对比)过程中的总日志。check.log记录了校验失败的具体某一行的数据。如没有出现check.log,则表示校验结果为正确。

使用实例

1. 数据库准备

在mysql数据库中名为“mysql”的schema下新建一个表如下:

假设数据迁移至openGauss之后,5条数据只成功迁移了4条,表现如下:

2. 配置 gauss.properties

3. 运行startup.bat(startup.sh)

4. 查看日志

首先查看/logs/summary/summary.log,找到出错的表mysql.test

然后进入/logs/mysql.test/ 查看详情

 

 

 这里有四个日志文件,主要看check.log

发现 id为5, name为5的这一条记录没有被成功迁移过去。 

 

 

 

 

 

...全文
586 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
内容概要:本文提出了一种基于神经网络的数据驱动迭代学习控制(ILC)算法,专门用于解决具有未知动态模型和重复任务特征的非线性单输入单输出(SISO)离散时间系统在无人车路径跟踪中的应用问题,并通过Matlab代码实现了算法的仿真验证。该方法充分利用神经网络强大的非线性逼近能力和自适应学习特性,结合迭代学习控制在周期性任务中逐步优化控制输入的优势,即使在缺乏精确系统数学模型的前提下,也能有效提升无人车在复杂环境下的路径跟踪精度与系统稳定性。算法的核心在于通过多次运行过程中不断修正控制律,实现对期望轨迹的渐近跟踪。; 适合人群:具备一定现代控制理论基础知识、熟悉迭代学习控制基本概念,并拥有Matlab编程与仿真实践经验的研究生、科研人员及自动化、机器人领域的相关工程师。; 使用场景及目标:① 解决无人车在模型未知或难以精确建模的复杂动态环境中的高精度路径跟踪控制问题;② 为一类具有重复运行特性的非线性系统提供一种不依赖精确模型的先进控制策略;③ 推动数据驱动与人工智能方法在自动化控制领域的工程应用与学术研究发展。; 阅读建议:读者应重点理解神经网络在控制律中的设计与集成方式、迭代学习机制的具体实现流程,以及两者融合的创新点。务必结合所提供的Matlab代码进行详细的阅读、调试与仿真分析,通过改变参数和工况来观察控制效果,以深化对算法内在机理和性能特点的掌握。
内容概要:本文档是一份面向参与大学生创新创业训练计划(大创项目)的在校学生的系统性指导资源,全面覆盖国家级与省级项目的申报、执行、中期检查、结题全流程。内容包括大创项目的政策解读、分类与级别说明、申报流程与时间节点、评审标准解析,并提供创新训练、创业训练、创业实践三类项目的申报书撰写指南与范文。文档重点围绕物联网、数据分析、Web应用三大技术方向,提供可运行的完整项目实现案例,如基于ESP32的智慧农场系统、基于Python与Tableau的公交数据可视化平台、基于Spring Boot的校园协作平台,涵盖技术架构、代码实现、系统部署等细节。此外,还包括答辩PPT制作技巧、中期检查与结题报告的撰写模板,以及各类工具与学习资源推荐,助力学生从项目构思到成果落地的全过程。; 适合人群:参与大创项目的在校本科生,尤其是计算机、数据科学、物联网等相关专业,具备一定编程基础和科研兴趣的学生。; 使用场景及目标:①指导学生高效撰写符合评审要求的申报书、答辩材料、中期报告与结题报告;②提供三大主流技术方向的完整项目范例,帮助学生快速搭建原型系统,提升技术实践能力;③辅助团队进行项目规划、进度管理与成果总结,确保项目顺利立项与结题。; 阅读建议:建议根据项目所处阶段选择性阅读对应章节,申报阶段重点学习第1-4章,执行阶段参考第5-9章的技术实现案例,结题阶段使用第6章模板。应结合自身项目特点灵活应用范文与代码,避免照搬,注重原创性与可行性,并积极与指导教师沟通完善方案。

157

社区成员

发帖
与我相关
我的任务
社区描述
openGauss是一款开源关系型数据库管理系统,采用木兰宽松许可证v2发行。openGauss内核深度融合华为在数据库领域多年的经验,结合企业级场景需求,持续构建竞争力特性。
开源数据库开发dba 企业社区
社区管理员
  • openGauss社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧