re.sub 可以替换成中文字符吗?

饺克力克 2014-06-08 12:11:07
content = re.compile(u'<div class="post-body">.*?</div>', re.DOTALL) #(1)
style = content.search(html.decode('utf8'))
para = re.sub('<[^>]*>', '', html);
para = re.sub('……','……',para) # 此处会报错,不允许中文字符……
f = file('D:\\myblog\\'+str(id)+'.txt', 'w')
f.write(para.encode('utf8'))
f.close()

抓取的网页在去掉html标签以后,仍有以下符号:
… (省略号)
— (破折号)

请问在哪一步可以将其转换为中文的符号,如…… —— ?
...全文
597 2 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
bugs2k 2014-06-08
  • 打赏
  • 举报
回复
先把 html 解码成 unicode,就可以替换了
The_Third_Wave 2014-06-08
  • 打赏
  • 举报
回复
字符串么,可以用replace替换所有东西!非常有用!str.replace(old, new)!

37,743

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • WuKongSecurity@BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧