文本内容中UTF8识别不了字符如何替换

小白晒太阳 2016-06-14 02:43:28

生成的数据文件为XML，但是由于里面有个别内容为乱码字符导致XML读取识别，有没有办法查找出来乱码内容直接替换成空串？

这个是windows查看示例

linux 下vim查看乱码内容示例

求大神指点，感激不尽，因为涉及到文件比较多，所以手动一个个处理不太可能

...全文

422 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

zhxianbin 2016-06-14

打赏
举报

回复

是什么编码的，要什么编码？用 iconv 转换 http://qq164587043.blog.51cto.com/261469/63349

/*数出从左到右连续1的个数*/ static inline int left_1_count(unsigned char i) { constexpr static int map_table[]={ /*0000'0000*/0, /*0000'0001*/0, /*0000'0010*/0, /*0000'0011*/0

utf8的长度为1~4个字节，是一种变长串，在转换和传送过程中，可能由于某种意外会导致串出现错误的字符，致使有些工具无法识别而出现乱码，或者直接导致操作无法完成。实际应用中的例子：游戏中的邮件系统，一般会限制标题，内容的长度，但由于客户端截取长度时的不正当操作，导致utf8串被从中间截断。比如标题长度上限是15个字节，然后玩家输入的标题占用了16个字节，而最后输入的一个汉字占用3个字节，如果直

//替换系统自带的Utf8Decode函数，原函数遇到日文等非法字符不能解析function DecodeUtf8Str(const S: UTF8String): WideString;var lenSrc, lenDst: Integer;begin lenSrc := Length(S); if lenSrc = 0 then Exit; lenDst := MultiByteToW...

1、MultiByte和WideChara)ANSI 和 UTF8 都是MultiByte（俗称窄字节）b)UTF16大端和小端都是WideChar（俗称宽字节）Win32 API提供了一些函数来转换文本编码。下面是一些常用的转换函数：MultiByteToWideChar：将ANSI编码的文本转换为Unicode编码的文本WideCharToMultiByte：将Unicode编码的文本转换为ANSI或Utf-8编码的文本。

from:http://hi.baidu.com/wangzengfang/blog/item/c9f97b7b34c6caf00bd18724.html下面的文章可供参考，但我遇到了几百兆的数量库，几次用此方法都失败，原因是编辑器不能支持这么大的文本文件的编辑，另存为UTF8格式后，再次导入都不成功。怎么办呢？程序员还是靠程序吧。从数据库中取出中文字符串来，用函数一看是UTF-8格式的，所有不能...

Linux/Unix社区

18,828

社区成员

11,490

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章