• 全部
  • C#综合技术
  • C#互联网桌面应用
  • AppLauncher
  • WinForm&WPF
  • C#开发新技术
  • 问答

大佬帮忙看看为什么正则sub函数替换不了啊

m0_59874815 2021-07-03 22:56:38

我是想着把这些p标签和那些乱码替换成空白的但是一直替换不掉

import re
import requests

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.64',
    'Cookie': 'bcolor=; font=; size=; fontcolor=; width=; Hm_lvt_26c0596a5f449ac3144f90f3a3202786=1624770759,1625320560; hitme=1; hitbookid=17577; Hm_lpvt_26c0596a5f449ac3144f90f3a3202786=1625320791',
    'Referer': 'http://www.dvdspring.com/b/111582/'
}


def parse_page(url):
    response=requests.get(url,headers=headers)
    text=response.text
    titles=re.findall(r'<div class="bookname">.*?<h1>(.*?)</h1>',text,re.DOTALL)
    contents=re.findall(r'<div id="content">(.*?)</div>',text,re.DOTALL)
    fiction=[]
    for content in contents:
        x=re.sub('r<.*?>','',content,flags=re.S)
        fiction.append(x.strip())
        print(x.strip())



def main():
    url='http://www.dvdspring.com/b/111582/479440.html'
    parse_page(url)


if __name__ == '__main__':
    main()

这里是全部的代码,希望有大佬可以帮我看看告诉我该怎么弄才可以

在这里提前谢谢大佬!

...全文
346 点赞 收藏 1
写回复
1 条回复
切换为时间正序
请发表友善的回复…
发表回复

'r<.*?>'
应改为
r'<.*?>'

回复 2
发帖
C#
创建于2007-09-28

10.5w+

社区成员

.NET技术 C#
申请成为版主
帖子事件
创建了帖子
2021-07-03 22:56
社区公告

让您成为最强悍的C#开发者