求过滤非UTF8字符的方法

闲游四疯 2018-05-18 11:06:03

ASP.NET+MYSQL项目插入数据的时候，内容有一些图案字符，提示错误：
Incorrect string value: '\xF0\x9F\x98\xB1\xF0\x9F...' for column 'content' at row 1
查了下说是字符占四个字节，UTF8不支持引起的，我不想改数据库编码格式，想在源头把字符过滤掉，
我把文本转UTF8 没有效果，不会过滤，求一个C# 过滤非UTF-8字符的方法，
上网搜索都是JAVA跟PHP版的，没有C#版的
表情图案

...全文

845 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

今天是周五嘛 2019-10-18

打赏
举报

引用 2 楼闲游四疯的回复:

嗯基础不好理解不了这基础的东西反正是那些图案字符存储的问题，我拿PHP的方法改了下，我自己是能用了，贴出来，以后有需要的人参考下吧……
匹配替换掉所有UTF8字符，剩下的都是非UTF8字符，替换掉



        /// <summary>

        /// 替换非UTF8字符串

        /// </summary>

        /// <param name="html"></param>

        /// <returns></returns>

        public static string GetUTF8(string html)

        {

            string str = Regex.Replace(html, @"[\x09\x0A\x0D\x20-\x7E]|[\xC2-\xDF][\x80-\xBF]|\xE0[\xA0-\xBF][\x80-\xBF]|[\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}|"

                + "\xED[\x80-\x9F][\x80-\xBF]|\xF0[\x90-\xBF][\x80-\xBF]{2}|[\xF1-\xF3][\x80-\xBF]{3}|\xF4[\x80-\x8F][\x80-\xBF]{2}", "", RegexOptions.IgnoreCase).Trim();



            if (str != String.Empty)

            {

                foreach (char item in str)

                    html = html.Replace(item.ToString(), "");

            }



            return html;

        }

这个是不是只能去掉非汉字字符呀

编程有钱人了 2018-05-18

打赏
举报

单纯的 “字符串”的 “\xF0\x9F\x98\xB1\xF0\x9F” （这了我说是字符串本身，不是格式），其实就是字母和数字的组合，这个东西不和UTF-8 没关系的，我觉得这个错误是列存储长度报错

闲游四疯 2018-05-18

打赏
举报

嗯基础不好理解不了这基础的东西反正是那些图案字符存储的问题，我拿PHP的方法改了下，我自己是能用了，贴出来，以后有需要的人参考下吧…… 匹配替换掉所有UTF8字符，剩下的都是非UTF8字符，替换掉


        /// <summary>
        /// 替换非UTF8字符串
        /// </summary>
        /// <param name="html"></param>
        /// <returns></returns>
        public static string GetUTF8(string html)
        {
            string str = Regex.Replace(html, @"[\x09\x0A\x0D\x20-\x7E]|[\xC2-\xDF][\x80-\xBF]|\xE0[\xA0-\xBF][\x80-\xBF]|[\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}|"
                + "\xED[\x80-\x9F][\x80-\xBF]|\xF0[\x90-\xBF][\x80-\xBF]{2}|[\xF1-\xF3][\x80-\xBF]{3}|\xF4[\x80-\x8F][\x80-\xBF]{2}", "", RegexOptions.IgnoreCase).Trim();

            if (str != String.Empty)
            {
                foreach (char item in str)
                    html = html.Replace(item.ToString(), "");
            }

            return html;
        }