██████【从一HTML网页中提取信息。】██████

csdn8008 2003-12-09 09:37:26

请问如何从一HTML网页中提取信息，
再保存为一XML文件，
供以后其他网页调用?

有没有高手做过这方面的研究？
html是没有规则的。

...全文

136 9 打赏收藏转发到动态举报

写回复

用AI写文章

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

qiri07 2004-02-06

打赏
举报

qiri07 2003-12-10

打赏
举报

严重关注ing....

csdn8008 2003-12-10

打赏
举报

var xmlhttp=new ActiveXObject("Msxml2.xmlhttp")
xmlhttp.open("GET","http://10.78.119.100/index.asp",false)
xmlhttp.send()
document.write(xmlhttp.ResponseBody)

这样可以读出html代码，
但是怎么分析提取其中的有用信息？

csdn8008 2003-12-10

打赏
举报

有没有具体实例？

chense 2003-12-10

打赏
举报

用正则表达式来提取有用信息！

nchen123 2003-12-10

打赏
举报

http://www.codeproject.com/asp/gethtmlsource.asp

这里不就是具体示例吗？？

Tal 2003-12-10

打赏
举报

我也想知道

nchen123 2003-12-09

打赏
举报

用 xmlhttp 取网页信息，参考这里：
http://www.codeproject.com/asp/gethtmlsource.asp

然后将得到的信息用正则表达式分析，提取。

rickylyu 2003-12-09

打赏
举报

我也想了解

本文介绍了如何通过算法从HTML页面中提取正文内容，重点在于处理网页结构的不确定性及优化正文提取过程。通过实例代码展示了从网页中获取有效文本信息的方法。

本文介绍了如何使用R语言的Rcurl和XML包从网页中读取HTML内容，解析HTML树，获取网页所有URL以及提取特定数据。通过示例展示了从小木虫网站导师招生页面提取数据的过程，包括获取页面内容、识别链接并提取话题内容。

本文介绍如何使用Python脚本提取HTML网页上的所有文本信息。首先，需要安装必要的库，然后通过发送HTTP请求获取网页内容，解析HTML，提取并清理文本。文中还提供了示例输出，并说明了如何提取特定元素的文本，以及在处理复杂页面或反爬机制时的应对策略。

本发明涉及一种网页结构化数据的信息提取方法，通过构造DOM树、剪枝重构、特征路径标记和比较，从大量网页内容中快速准确提取所需信息。针对HTML网页的非结构化特点，该方法能有效提取结构化数据，适用于信息检索和应用程序数据使用。

本文介绍了如何使用Python的requests和BeautifulSoup库进行网页信息提取。涵盖了安装库、基本流程、实战案例、进阶技巧、分页处理及反爬虫策略等内容，帮助开发者高效抓取新闻、商品等网页数据。

ASP

28,403

社区成员

356,946

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章