关于提取网页的链接问题请教

delphi168 2006-06-22 05:00:58
我想实现从一个网页中获取该网页的所有链接,尝试过用webbrowser,只能获取<a href="">之类的链接,但是对于javascripts写的链接就无能为力?请问有没有高手曾经做过同类的控件、函数,请指教。
...全文
260 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
jamosnet 2006-07-27
  • 打赏
  • 举报
回复
这个问题没有ttk想的简单,对于他的爬虫我表示怀疑

javascript的连接我是这么理解的,连接是js生成的,例如
for( i=0,j=0;i<10;i++,j++ )
{
src = "../link"+i+".cgi?" + j
document.write( "<a href="+src+">link</a>" )
}

连接是算出来的,不能简单匹配字符串
我有个不聪明的办法,用webbrowser载入页面,然后获取其中的所有连接
tttk 2006-06-23
  • 打赏
  • 举报
回复
我写的只是个大概,根据实际情况会有所变化。我不太明白你说的javascript里面的链接是什么意思?

我以前做过一个新闻爬虫软件,专门分析网页中的各种链接,没有什么问题。
飞天揽月 2006-06-23
  • 打赏
  • 举报
回复
不能
delphi168 2006-06-23
  • 打赏
  • 举报
回复
谢谢tttk(网络芝麻) 指教,如何使用规则表达式?是不是要用控件?

但我看这两个表达式,估计也不能从javascript中抽取链接。
tttk 2006-06-22
  • 打赏
  • 举报
回复
所有的锚链接:(?i)href=['|"]?([^ >]+)['|"]?)[^>]+
所有的src链接 (?i)src=['|"]?([^ >]+)['|"]?)[^>]+
tttk 2006-06-22
  • 打赏
  • 举报
回复
建议用规则表达式来解决

1,593

社区成员

发帖
与我相关
我的任务
社区描述
Delphi 网络通信/分布式开发
社区管理员
  • 网络通信/分布式开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧