【Python】如何提取如下html中的文本

LeonTown 2015-08-10 11:23:45

Hi 各位大侠：
有类似如下的html代码：

<div class="c-abstract">区号查询提供北戴河区号,北戴河区号查询,<em>北戴河电话区号</em>查询,北戴河区号大全,北戴河区号是多少,北戴河长途电话区号,北戴河区号在线查询,北戴河邮政编码大全,北戴河邮政编...</div>

提取<div class="c-abstract">中文本的python代码如下：

from scrapy.selector import Selector

from scrapy.selector import HtmlXPathSelector



html = "..." # 上述html代码字符串



sel = Selector(text=html)



rawCont = sel.xpath("//div[@class='c-abstract']") 

for cont in rawCont:

  for nn in cont.xpath('text()').extract():

    print nn

上述代码，无法提取html中<em>标签中的文本。

请问，该如何提取<div class="c-abstract">标签下的全部文本，包括<em>中的文本呢？

...全文

4139 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

zhm9484 2015-08-11

打赏
举报

回复

rawCont = sel.xpath("//div[@class='c-abstract']").extract() pattern = re.compile('<.+?>') pattern.sub('' , rawCont) 这样应该可以

JtwoR 2015-08-11

打赏
举报

回复

建议使用python的 beautifulsoup词库使用soup.find_all 能直接提取网页文本

sprawling 2015-08-11

打赏
举报

回复

scrapy这个工具好难装啊,到现在都没安装成功(windows下面)

狗蛋回家的小路 2015-08-11

打赏
举报

回复

BeautifulSoup库下得find()和findAll()，解析HTML很方便的..找到标签位置使用get_text()就可以提取到文本了..http://blog.csdn.net/qq_15297487/article/details/47321905这个里面有详细的操作.

在解决自然语言处理问题时，有时你需要获得大量的文本集。互联网是文本的最大来源，但是从任意HTML页面提取文本是一项艰巨而痛苦的任务。假设我们需要从各种网页中提取全文，并且要剥离所有HTML标记。通常，默认解决方案是使用BeautifulSoup软件包中的get_text方法，该方法内部使用lxml。这是一个经过充分测试的解决方案，但是在处理成千上万个HTML文档时可能会非常慢。通过用selectolax替换BeautifulSoup，您几乎可以免费获得5-30倍的加速！这是一个简单的基准测试，可分析.

python 中，如果想从带有 html 中的富文本内容中，提取文本有很多种方法。html2text(推荐)html2text 顾名思义就是为了这种场景而设计的，它会去掉标签只保留文本信息。相关信息网址：https://pypi.org/project/html2text/通过 pip 命令进行安装，命令如下：pip3 install html2text使用更加简便，直接调用 html2text ...

自然语言处理分析的最基本和初始步骤是关键词提取，在NLP中，我们有许多算法可以帮助我们提取文本数据的关键字。本文中，云朵君将和大家一起学习四种即简单又有效的方法，它们分别是Rake、Yake、Keybert 和 Textrank。并将简单概述下每个方法的使用场景，然后使用附加示例将其应用于提取关键字。本文关键字：关键字提取、关键短语提取、Python、NLP、TextRank、Rake、BERT...

如何用Python提取html文件的指定内容保存到excel小编花光所有心力得到一张通往你心里的机票可它失事了如何用Python提取html文件的指定内容保存到excel小编有一个html格式的漏洞一个个正则匹配，截取出来，然后组装成sql语句写入文本慢慢调试吧~人生就像饺子，无论是被拖下水，还是自己跳下水，一生中不蹚一次浑水就不算成熟。如何用Python爬取出HTML指定标签内的文本？小编想只...

python提供了SGMLParser类用于html文件的解析。用户只需从SGMLParser类继承子类，并在子类中对html文件做具体处理。例如具有如下结构的html文件感兴趣内容1 感兴趣内容2 …… 感兴趣内容n 内容1 内容2 …… 内容n 我们尝试获得'感兴趣内容' 对于文本内容,我们保存到IDList中。可是如何标记我们遇到的文本是感兴趣的内容

37,741

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章