关于latin-1和utf-8的转换问题

loser2me 2020-10-16 04:15:38

各位大佬好！
小弟初来乍到，如有发帖不对的地方，还请多多海涵。
（这个分区也是我自己瞎选的。。我也不清楚这个问题能否解决）

我爬虫的时候碰到一个问题，就是读取的数据有乱码
比如一个化合物，在网站显示的是Butenolide â…¡，但是实际（通过其他网站对比查找）因该是Butenolide Ⅱ
后来我发现，Ⅱ如果用encoding=Latin-1的方式读取，就是â…¡
但是这个网站的本身编码方式已经是UTF-8

也就是说这个网站在搭建的时候，就将数据用Latin-1方式读取，然后用UTF-8保存了

因为类似的乱码问题还有很多，没有别的办法批量文本替换，请问有没有什么方法可以转换成最开始的样子？

目前情况：
数据格式：通过爬虫保存为CSV格式
语言：我只会C#,PYTHON,R
数据库：只知道皮毛

非常感谢

...全文

458 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

MySQL Latin1 到 UTF-8 转换项目常见问题解决方案项目基础介绍该项目名为 mysql-convert-latin1-to-utf8，由 Nic Jansma 开发，旨在帮助用户将 MySQL 数据库中存储在 latin1 字符集列中的 UTF-8 数据转换为正确的 UTF-8 字符集列。项目主要使用 PHP 语言编写，通过自动化脚本来完成字符集的转换。新手使用注意事项及解决方...

字符编码是计算机处理文本的基础，常见的编码包括ASCII、Latin1、Unicode、UTF-8和GBK。ASCII是最早的编码标准，仅支持英文字符；Latin1扩展了ASCII，支持西欧语言；Unicode为全球字符提供统一编码，而UTF-8是其最常用的实现方式，具有兼容性和灵活性；GBK是中文专用编码，适用于特定场景。在实际应用中，UTF-8因其全球支持和高效性成为首选，尤其在多语言环境中。理解这些编码的特点和区别，有助于解决乱码和编码转换问题，确保文本处理的准确性。

很多项目在初建时由于工程师不严谨或者水平不够选用了错误的数据库编码，用latin1编码存储中文数据，随着项目复杂程度提高，会出现各种编码问题，可以说是后患无穷，经过反复测试，我总结出一个办法可以把latin1编码的数据库转换成gbk或u8编码，与大家分享一. latin1 转 gbk1.导出数据库mysqldump --default-character-set=latin1 -h xxx.xxx...

今天我们同大家介绍一下"详解MySQL字符的编码转换问题"，希望对大家有所帮助，并和大家一起来探讨、交流。我们大家都知道容易过想搞好一个站的二次开发，可以用的原数据库的编码有两种，即gbk与lation1。而我用的是 gbk，就涉及到编码转换问题。这里在LiJun027’s Blog查到一个详细的编码比较，几种情况如下：一、实验： 1、情况一数据库字段MyS

bitsCN.comMysql 的latin1 不等于标准的latin1(iso-8859-1) 和cp1252,比iso-8859-1多了0x80-0x9f字符，比cp1252多了0x81,0x8d,0x8f,0x90,0x9d 一共5个字符。http://dev.mysql.com/doc/refman/5.0/en/charset-we-sets.htmllatin1 is the defa...

22,296

社区成员

121,726

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章