ETL工具kettle不同字符集数据库之间抽取出现的中文乱码问题

SoulCaptain 2018-03-16 05:04:26

现在在做财务的软件,财务需求是想把销售系统所有的订单信息抽取到,所以这里我们使用了kettle工具.
看了很多前辈们写的kettle,都是先将'表输入'-->'字段选择'-->'文本输出',这里输出的是CSV的文本,最后再讲这个CSV文本导入到目标库的目标表中.

这种方式可以规避字符串不匹配的情况.

我本人使用的是更简便的方式,'表输入'-->'字段选择'-->MYSQL批量加载的方式.

这种方式的好处是抽取完数据直接就可以添加到目标表中.但是缺点是源表的编码格式跟目标表的编码格式不同,会导致导入数据为乱码的情况.下面就是我要说的如何处理这种乱码问题.
这个问题也是从网上查了很多资料才解决的.
我是使用的linux系统启动的定时抽取的任务,所以我这里就以linux为例做说明;
Linux中,要规避中文乱码的情况要注意修改两点:
一,我们要在spoon.sh配置文件添加-Dfile.encoding=GBK参数
具体位置添加如下位置.



OPT="$OPT $PENTAHO_DI_JAVA_OPTIONS

-Dfile.encoding=GBK

-Dhttps.protocols=TLSv1,TLSv1.1,TLSv1.2 

-Djava.library.path=$LIBPATH -DKETTLE_HOME=$KETTLE_HOME -DKETTLE_REPOSITORY=$KETTLE_REPOSITORY -DKETTLE_USER=$KETTLE_USER -DKETTLE_PASSWORD=$KETTLE_PASSWORD -DKETTLE_PLUGIN_PACKAGES=$KETTLE_PLUGIN_PACKAGES -DKETTLE_LOG_SIZE_LIMIT=$KETTLE_LOG_SIZE_LIMIT -DKETTLE_JNDI_ROOT=$KETTLE_JNDI_ROOT"

二,这里'表输入'要注意勾选'允许简易转换'

这样的话测试一下即可以避免抽取乱码的问题.
第一次发帖,写的不好大家多提意见.有问题多交流.

...全文

1964 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

SoulCaptain 2018-03-19

打赏
举报

回复

我这是分享帖.

学完本课程，您将掌握：PDI/Kettle数仓技术PDI/Kettle开源免费的ETL推送工具PDI/Kettle数据清洗PDI/Kettle数据抽取PDI/Kettle数据挖掘PDI/Kettle案例实战PDI/Kettle技巧PDI/Kettle9.1版本PDI/Kettle通用PDI/Kettle水壶技术适合人群：需要数据清洗和操作的IT信息化相关人员，IT相关从业人员，大数据工程师，数据库工程师及DBA，数据仓库ETL学习计划：利用碎片化的时间学习即可，每天学习一小时或3个课时即可达到效果；时间充足者，自由安排课程目标：促使教育公平，打破教育壁垒，让ETL更加的大众化使用课程简介：【可视化介绍】 Kettle 是 PDI 以前的名称，PDI 的全称是Pentaho Data Integeration，Kettle 本意是水壶的意思，表达了数据流的含义。Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。【软件版本】企业用的最多的Kettle9.x/8.x/7.x，本教程以最新Kettle 9.x进行教学【授课方式】番茄教学法：以知识点为基准，进行独立课时讲解，课时之间低耦合，方便同学利用碎片化时间学习

大数据ETL开发之图解Kettle工具入门到精通（附上kettle安装包）

【ETL】Kettle数据抽取（转换）出现乱码问题解决方法 ...

开源ETL工具kettle系列之常见问题摘要：本文主要介绍使用kettle设计一些ETL任务时一些常见问题，这些问题大部分都不在官方FAQ上，你可以在kettle的论坛上找到一些问题的答案1. Join我得到A 数据流（不管是基于文件或数据库），A包含field1 , field2 , field3 字段，然后我还有一个B数据流，B包含field4 , field5 , field6

大数据 ETL 处理工具之 Kettle

56,679

社区成员

56,709

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章