去除text内容杂质及怎样调用类里的方法

Dongwasdjkl 2017-08-15 02:51:31

for i in range(2, 100):
urls = url + str(i)
# print urls
request = urllib2.Request(url=urls, headers=header)
content = urllib2.urlopen(request)
time.sleep(5)
contents = content.read()
# time.sleep(5)
dict_data = json.loads(contents)
print dict_data
print "---------------" + str(i)
cards = dict_data['cards'][0]['card_group']
for i in cards:
a = i['mblog']
print U"时间：", a['created_at']
print u'mid:', a['mid']
text = a['text'].encode('gbk', 'ignore')
print text
#调用下面Tool()类里的方法，使text文本内容里的杂质去除，只留中文。该怎么办

class Tool():
# 去除img标签,7位长空格
removeImg = re.compile('<img.*?>| {7}|')
#删除span标签
removeSpan = re.compile('<span.*?>| {7}|')
# 删除超链接标签
removeAddr = re.compile('<a.*?>|</a>')
# 把换行的标签换为\n
replaceLine = re.compile('<tr>|<div>|</div>|</p>')
# 将表格制表<td>替换为\t
replaceTD = re.compile('<td>')
# 把段落开头换为\n加空两格
replacePara = re.compile('<p.*?>')
# 将换行符或双换行符替换为\n
replaceBR = re.compile('<br><br>|<br>')
# 将其余标签剔除
removeExtraTag = re.compile('<.*?>')
def replace(self,text):
text = re.sub(self.removeImg, "", text)
text = re.sub(self.removeSpan,"",text)
text = re.sub(self.removeAddr, "", text)
text = re.sub(self.replaceLine, "\n", text)
text = re.sub(self.replaceTD, "\t", text)
text = re.sub(self.replacePara, "\n ", text)
text = re.sub(self.replaceBR, "\n", text)
text = re.sub(self.removeExtraTag, "", text)
# strip()将前后多余内容删除
return text.strip()

...全文

105 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

Dongwasdjkl 2017-08-15

打赏
举报

非常感谢，在你回复我之前我弄了半天弄出来了，但还是非常感谢您

混沌鳄鱼 2017-08-15

打赏
举报



tool = Tool()
print tool.replace(text)

\[ \text{C}_8\text{H}_4\text{O} + \text{C}_5\text{H}_{10}\text{O}\text{H} \rightarrow \text{C}_{12}\text{H}_{14}\text{O}_4 + \text{H}_2\text{O} \] 反应结束后，通过一定工艺进行粗酯合成。粗酯的合成是将...

**例题解析:** 在给出的选择题中，不正确的去除杂质方法是B选项，即用过量氨水去除Fe3+溶液中的少量Al3+。以上内容涵盖了镁、铝及其重要化合物的相关知识点，通过对这些知识点的理解，有助于更好地掌握相关的化学...

在本压缩包中，主要涉及的是一个与工业生产相关的设计装置方法，具体是关于通过碳酸盐分解来产生纯度高或易于进一步纯化的二氧化碳（CO2）的预煅烧技术。这一过程对于化学工程、环保技术和能源领域具有重要意义，...

### 机械类专业英语知识点详解 ...以上内容涵盖了机械类专业英语中的众多关键词汇和技术术语，涉及材料科学、机械加工、质量控制等多个方面，对于从事机械工程领域工作的专业人士来说是非常重要的基础知识。

该文档详细描述了10%葡萄糖注射液的生产工艺流程、质量控制标准及检验方法等内容。通过对这些信息的梳理，可以清晰地了解到整个生产过程中的关键步骤及其重要性。这对于药品生产企业来说非常重要，有助于确保产品...

脚本语言

37,743

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章