Hive SQL 数据中文乱码，如何过滤

求知小孩儿 2019-08-08 10:00:06

由于文件批量导入HIVE SQL中时，没有对每个文件进行utf-8的设置，可能一个文件中的数据也有不同的编码格式。入库后发现部分乱码，怎么样才能过滤出中文乱码？因为总量200万数据，可能就几十条乱码。有没有什么语句可以筛选出来呢？谢谢！！

...全文

905 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Edmond1023 2019-08-09

打赏
举报

回复

没有办法了因为你所有的文件的字符集编码不是一种，所以只能在hive外将所有文件的字符集编码转换为utf_8之后再进行load

针对 hdp-22.4.3.0-227版中的hive1.2.1000的cli show create table乱码的替换jar包。

hive2.1.1 show create table 表名，hive中文乱码，替换hive-exec-2.1.1.jar

配置，测试，导入数据详细操作，CREATE TABLE hive_hbase_table(key int, value string,name string) hadoop jar /usr/lib/hbase/hbase-0.90.4-cdh3u3.jar importtsv -Dimporttsv.columns=HBASE_ROW_KEY, catgyname,catgyid1,catgyname1,catgyid2,catgyname2,catgyid3,catgyname3,catgyid4,catgyname4,catgyid5,catgyname5,catgyid6,catgyname6,catgyid7,catgyname7,catgyid8,catgyname8,catgyid9,catgyname9,levelnum,catgyno,createtmp idap_dim_chrg_item_catgy /user/hive/staging/idap_dim_chrg_item_catgy 注意导入的时候要先在hbase中创建idap_dim_chrg_item_catgy这个表 create

官方版的hive，通过命令：desc table1，是不能正常显示中文注释的，附件是对源码改造过的hive-0.10.0可以通过命令：desc table1 正常显示中文注释

impala的substr()和substring()函数是不支持中文的,创建一个udf解决impala sql中substr()函数截取中文字符串乱码的问题

7,394

社区成员

6,741

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章