社区
HTML/XML
帖子详情
怎样解析网页中文章的标题和正文?
sunyanzi
2003-11-19 04:37:23
对于一篇网页中的文章,怎样解析得到它的标题和正文呢?尤其是怎样得到正文?(注意要的不是HTML源文件中的<TITLE>...<TITLE>和<BODY>...<BODY>部分)
比如 http://www.csdn.net/news/newstopic/14/14098.shtml 中的文章,
其标题应该是“Sun中国工程院明年投入1.5亿 主攻3G等五方向”,
其正文应该是“Sun公司……技术应用中心。”
怎样通过程序解析得到呢?谢谢!
...全文
111
10
打赏
收藏
怎样解析网页中文章的标题和正文?
对于一篇网页中的文章,怎样解析得到它的标题和正文呢?尤其是怎样得到正文?(注意要的不是HTML源文件中的...和...部分) 比如 http://www.csdn.net/news/newstopic/14/14098.shtml 中的文章, 其标题应该是“Sun中国工程院明年投入1.5亿 主攻3G等五方向”, 其正文应该是“Sun公司……技术应用中心。” 怎样通过程序解析得到呢?谢谢!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
10 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
114sky
2003-12-14
打赏
举报
回复
jiangsheng(蒋晟.Net) ( ) 把问题复杂话了。自己做个html的解析器就可以
114sky
2003-12-14
打赏
举报
回复
我就能做到。
hz张三
2003-11-21
打赏
举报
回复
不一定一定要用IHtmlDoc
hz张三
2003-11-21
打赏
举报
回复
呵呵,看你自己字符串解析的功力了~~~~~~
t0mychen
2003-11-20
打赏
举报
回复
做一个指定的页面差不多,如果想做到,对任何一个网页,那很难,而且不见得能做得出来
sunyanzi
2003-11-20
打赏
举报
回复
我想大家可能误解我的意思了,我要的是一种方法,能够去除页面文字中无用的部分,例如与文章无用的链接等。
比如就本网页来说,我要的是大家的回答内容,而不需要其它的如“人才招聘 — 山东山大联润信息... 国风因特软件(北...”等这些东西。
有点类似搜索引擎的功能,搜索引擎应该是在文章正文中搜索要匹配的查询项目,而不会在页面文字的其它部分(如其它链接)去搜索,因为那样毫无意义。
但是也不能凡是链接部分都去掉,因为文章正文部分也可能含有文字链接。
网上的网页千差万别,能有什么好的算法能够比较智能、准确的解析出文章正文吗?
xsc2001
2003-11-20
打赏
举报
回复
这个问题就是解析HTML文本的过程,你只要对HTML比较了解,就很好取出来的!
cityyokel
2003-11-20
打赏
举报
回复
如果是用XML Scheme生成的页面应该容易一些吧,首先从scheme入手,再去解析目标页面。
个人意见
蒋晟
2003-11-19
打赏
举报
回复
http://www.csdn.net/develop/read_article.asp?id=21702
查看源代码功能部分有HTML解析
lanfanghelanfanghe
2003-11-19
打赏
举报
回复
接分来了!!
IText、Jsoup jar包
3. 文本提取:可以方便地从HTML文档
中
提取文本内容,比如
文章
正文
、
标题
等。 4. 数据清洗:Jsoup可以帮助清理HTML,去除不规范的标签和属性,保持结构清晰。 5. 修改DOM:允许开发者修改HTML元素,如添加、删除或...
爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取,搜索引擎大揭密
3. **内容
解析
**:
解析
HTML,提取目标信息,如
文章
标题
、内容等。 4. **数据存储**:将抓取的数据存储到数据库或文件,便于后续处理。 5. **链接发现**:查找页面
中
的链接,添加到待爬取队列。 6. **重复检查**:...
java 网络爬虫源码
"可以实现对指定站点新闻内容的获取"意味着该爬虫能够定向抓取特定URL上的新闻页面,并从
中
提取所需的数据,如
文章
标题
、内容、发布时间等。"程序很简单"暗示了代码结构清晰,易于理解和修改,适合教学和实践。"大家...
用 Python 爬取
网页
中
的
标题
和链接——从基础到进阶的全面
解析
网页
爬虫是从互联网自动获取数据的程序,它可以帮助我们从指定
网页
中
提取有用的信息,如
网页
标题
、
文章
内容、图片链接等。Python 是最流行的爬虫开发语言之一,它拥有丰富的库和工具,使得爬虫的编写变得简单而高效...
如何使用Python抓取
网页
标题
和
正文
内容 —— 完整爬虫实现
爬虫(Crawler),又叫网络蜘蛛,是一种自动化程序,它模拟浏览器行为,自动从互联网上...通过本篇博客,我们详细介绍了如何使用Python编写一个简单的爬虫程序,抓取指定
网页
的
标题
和
正文
内容。我们介绍了requests和。
HTML/XML
3,056
社区成员
8,075
社区内容
发帖
与我相关
我的任务
HTML/XML
VC/MFC HTML/XML
复制链接
扫一扫
分享
社区描述
VC/MFC HTML/XML
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章