关于latin-1和utf-8的转换问题
各位大佬好!
小弟初来乍到,如有发帖不对的地方,还请多多海涵。
(这个分区也是我自己瞎选的。。我也不清楚这个问题能否解决)
我爬虫的时候碰到一个问题,就是读取的数据有乱码
比如一个化合物,在网站显示的是Butenolide â…¡,但是实际(通过其他网站对比查找)因该是Butenolide Ⅱ
后来我发现,Ⅱ如果用encoding=Latin-1的方式读取,就是â…¡
但是这个网站的本身编码方式已经是UTF-8
也就是说这个网站在搭建的时候,就将数据用Latin-1方式读取,然后用UTF-8保存了
因为类似的乱码问题还有很多,没有别的办法批量文本替换,请问有没有什么方法可以转换成最开始的样子?
目前情况:
数据格式:通过爬虫保存为CSV格式
语言:我只会C#,PYTHON,R
数据库:只知道皮毛
非常感谢