关于latin-1和utf-8的转换问题

loser2me 2020-10-16 04:15:38
各位大佬好!
小弟初来乍到,如有发帖不对的地方,还请多多海涵。
(这个分区也是我自己瞎选的。。我也不清楚这个问题能否解决)

我爬虫的时候碰到一个问题,就是读取的数据有乱码
比如一个化合物,在网站显示的是Butenolide â…¡,但是实际(通过其他网站对比查找)因该是Butenolide Ⅱ
后来我发现,如果用encoding=Latin-1的方式读取,就是â…¡
但是这个网站的本身编码方式已经是UTF-8

也就是说这个网站在搭建的时候,就将数据用Latin-1方式读取,然后用UTF-8保存了

因为类似的乱码问题还有很多,没有别的办法批量文本替换,请问有没有什么方法可以转换成最开始的样子?

目前情况:
数据格式:通过爬虫保存为CSV格式
语言:我只会C#,PYTHON,R
数据库:只知道皮毛

非常感谢

...全文
401 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

22,301

社区成员

发帖
与我相关
我的任务
社区描述
MS-SQL Server 疑难问题
社区管理员
  • 疑难问题社区
  • 尘觉
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧