re.sub 可以替换成中文字符吗?
饺克力克 2014-06-08 12:11:07 content = re.compile(u'<div class="post-body">.*?</div>', re.DOTALL) #(1)
style = content.search(html.decode('utf8'))
para = re.sub('<[^>]*>', '', html);
para = re.sub('……','……',para) # 此处会报错,不允许中文字符……
f = file('D:\\myblog\\'+str(id)+'.txt', 'w')
f.write(para.encode('utf8'))
f.close()
抓取的网页在去掉html标签以后,仍有以下符号:
… (省略号)
— (破折号)
请问在哪一步可以将其转换为中文的符号,如…… —— ?