zhuzuwei的留言板

zhuzuwei 2020-01-02 06:34:31

大家好，这里是我的留言板，如果有问题，欢迎大家留言，我会第一时间进行回复

...全文

157 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

起因今天在处理工作时，需要将结果从hive读出，并保存为csv格式，然后下载。可以下载后用excel打开发现出现乱码，非我想要的。解决方案参考了https://blog.csdn.net/zhuzuwei/article/details/80890007的博文，在此表示感谢。我们看下pandas官网对参数encoding 的解释，默认为utf-8，就是说在我们不给指定时，就已经默认选择了...

问题：用pandas读取origin.csv数据处理后，to_csv(‘utf-8’)生成 new.csv后，用excel打开乱码，用notepad查看原始csv编码’utf-8’，在notepad中查看new.csv也无乱码。然后一脸懵，这肯定不涉及不同编码格式乱用转换的问题。那咋整？正确的方法 utf_8_sig df.to_csv('df.csv', encoding='utf_8_sig') 感谢前人的分享，在此自己记录一下 ref https://blog.csdn.net/zhuzuwei/

使用os模块可以获取指定文件夹下所有文件名，有两个方法os.walk()和os.listdir().(1)os.walk可以用于遍历指定文件下所有的子目录、非目录子文件。import os filePath = 'C:\\myLearning\\pythonLearning201712\\carComments\\01\\' for i,j,k in os.walk(filePath): ...

Keras学习笔记一：常用层keras.layers.core部分函数https://blog.csdn.net/zhuzuwei/article/details/78651601

中文分句，乍一看是一个挺简单的工作，一般我们只要找到一个【。！？】这类的典型断句符断开就可以了吗。对于简单的文本这个做法是已经可行了（比如我看到这篇文章里有个简洁的实现方法自然语言处理学习3：中文分句re.split()，jieba分词和词频统计FreqDist_zhuzuwei的博客-CSDN博客_jieba 分句NLTK使用笔记，NLTK是常用的Python自然语言处理库然而当我处理小说文本时，发现了这种思路的漏洞：所以，这里我提供一个更加精细的解决方法，可以解决上面的问题：检验效果

662

社区成员

253,731

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章