想做个新闻采集,页面内容用webclient抓回来后,求1个提取新闻内容的正则表达式,

wslinfeng 2006-11-22 08:15:26
如题,越详细越好,
...全文
396 16 打赏 收藏 转发到动态 举报
写回复
用AI写文章
16 条回复
切换为时间正序
请发表友善的回复…
发表回复
softbunny 2006-12-07
  • 打赏
  • 举报
回复
有具体页面才能帮你写正则呀,针对不同页面正则都不一样,不可能有通用的
wslinfeng 2006-11-24
  • 打赏
  • 举报
回复
结贴了,虽然还没答案,自己研究去
snoopymin 2006-11-24
  • 打赏
  • 举报
回复
我也顶》。。学习:)
wslinfeng 2006-11-24
  • 打赏
  • 举报
回复
再顶,就不信没人有个思路,
pkkfaii 2006-11-23
  • 打赏
  • 举报
回复
学习中
gzdiablo 2006-11-23
  • 打赏
  • 举报
回复
HTML分析是个相当复杂的过程 建议使用Javascript利用DHTML DOM在客户端获取.在服务器端截取的话是个相当复杂的工作.我用了最少20条正则表达式才能获取到我想要的东西.其中部分表达式还非常的复杂.
主要过程:
1.使用表达式修正不合法的HTML标签
2.去掉没用的标签
3.去掉多于的HTML头
4.去掉脚本
5.备份所有styleSheet包括head里面的<meta>标签里面的样式指向
6.修正所有相对连接
7.查询你要获取的内容 最后获取.

就算完成以上 还是有很多不确定因素要处理
kui1015 2006-11-23
  • 打赏
  • 举报
回复
mark
tornado379 2006-11-23
  • 打赏
  • 举报
回复
采集新闻内容的正则表达式最好是写成能配置的,因为每个网站的新闻格式可能不一样。
Xpengfee 2006-11-23
  • 打赏
  • 举报
回复
up一下,楼主若是解决了,烦请赐小弟一份代码示例,也让俺学习一下。
谢谢!!xpengfee@163.com
gzdiablo 2006-11-23
  • 打赏
  • 举报
回复
拿5000大元我给你个写好的
mobydick 2006-11-23
  • 打赏
  • 举报
回复
要提供原始字符串和你想要的结果,不然怎么写~~~
petshop4 2006-11-23
  • 打赏
  • 举报
回复
拿5000大元我给你个写好的
========
这么贵~我半价哈~~
llainn 2006-11-22
  • 打赏
  • 举报
回复
得看你想采集的网页
windykuang 2006-11-22
  • 打赏
  • 举报
回复
顶一把...
njrc 2006-11-22
  • 打赏
  • 举报
回复
up
wslinfeng 2006-11-22
  • 打赏
  • 举报
回复
自己UP下,顶者有份

62,051

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧