抓包怎样只获取网页的真正解析的url

bluecodezlx 2011-06-24 09:15:31

题：
在 PC 的浏览器输入一个URL地址，然后获取网页。在这个过程中，网页会自动发出其他的获.取页面元素的连接，这些连接也都是URL,且其服.务器地址.一般也不一样。
请问我该怎样只获取用户真正访问的URL地址，而过滤掉后续的url连接,比如一些网页内部的URL？
（注：我是在linux上编程）

...全文

767 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

nightkids_008 2011-07-11

打赏
举报

回复

比对下几个URL之间的区别找特征吧

bluecodezlx 2011-07-11

打赏
举报

回复

[Quote=引用 4 楼 ganzhezeng2 的回复:]

比如访问sina新闻的一个地址 /xxxx/xxxx.html
发包就是 get /xxxx/xxxx.html
/xxxx/xxxx.html 这个就是你想获得的吗？
截取以html的结尾
[/Quote]
恩，我需要的差不多就是用户真正访问过的URL，剔除一些不需要的信息！

solohac 2011-06-27

打赏
举报

回复

比如访问sina新闻的一个地址 /xxxx/xxxx.html
发包就是 get /xxxx/xxxx.html
/xxxx/xxxx.html 这个就是你想获得的吗？
截取以html的结尾

bluecodezlx 2011-06-27

打赏
举报

回复

怎么没人关注，自己顶起！！

bluecodezlx 2011-06-24

打赏
举报

回复

不一定是第一条URL，通过用HttpAnalyzer抓包得到的数据显示：
假如我测试访问：http://www.sina.com.cn/
抓包得到的get包至少有70以上，其中就包括许多图片动画脚本的URL[这一部分可以去除]，但一些浮动窗口url，友情链接等没有找到明显的特征！

ForestDB 2011-06-24

打赏
举报

回复

第一个请求？

前段时间搞抓包程序，使用Pcap4J实现，简单写了一个demo小程序，有需要的下。

这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对...

抓包网络基础企业如何抓包wireshark介绍过滤抓取的数据包高级wireshark特性命令行抓取数据包网络层协议抓包实战传输层协议抓包实战

包括浏览器抓包，手机APP抓包，如 fiddler、mitmproxy，各种爬虫涉及的模块的使用，如：requests、beautifulSoup、selenium、appium、scrapy等，以及IP代理，验证码识… 爬虫（Web Crawler）是一种自动化程序，用于...

啄木鸟，就是手机屏幕上的啄木鸟，专抓App里的Bug。... 2.JSON抓包：便捷的JSON抓包工具，通过监听系统json解析抓包。 3.方法监听：错误提示，可监听App中任意OC方法的调用，输出调用参数，返回值等信息，可以通

69,381

社区成员

243,073

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章