社区
Framework
帖子详情
抓取网页内容时遇到的问题
PHP编程者
2010-12-01 09:47:57
新蛋网的商品页的url的命名规则是什么,分析了半天也没分析出来,比如:http://www.newegg.com.cn/Product/36-c04-400.htm中的(36-c04-400)规则是什么,也就是说如何批量获得商品编号?请各位指点下
...全文
93
4
打赏
收藏
抓取网页内容时遇到的问题
新蛋网的商品页的url的命名规则是什么,分析了半天也没分析出来,比如:http://www.newegg.com.cn/Product/36-c04-400.htm中的(36-c04-400)规则是什么,也就是说如何批量获得商品编号?请各位指点下
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
4 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
zhongqixing1104
2010-12-01
打赏
举报
回复
找几个产品对比下就知道了。36-c04-400。笔记本前面两位都是36,上网本台式机都是35,c04,thinkpad E40的都是c04,Dell 戴尔 Inspiron都是c08,最后三位应该是产品的id
PHP编程者
2010-12-01
打赏
举报
回复
[Quote=引用 2 楼 alex_best 的回复:]
不可能~~你只能抓取全站所有的链接 然后进行分析
你也可以先看看他们的链接有什么规律,只抓你需要的~~
[/Quote]上面的网站的链接规律是什么呢,我猜了猜,可效率很低啊,http://www.newegg.com.cn/Product/**-c**-***.htm,其中*代表一位数字
igaojie
2010-12-01
打赏
举报
回复
不可能~~你只能抓取全站所有的链接 然后进行分析
你也可以先看看他们的链接有什么规律,只抓你需要的~~
PHP编程者
2010-12-01
打赏
举报
回复
在线等,急等着用
java web网站常用
抓取
其他网站内容
网页
抓取
,也称为网络爬虫或网页蜘蛛,是一种自动浏览互联网并获取网页信息的技术。它通过模拟浏览器发送HTTP请求到目标服务器,接收响应的HTML内容,然后解析这些内容以提取所需信息。 1. **HTTP请求**:在Java中...
htmlparser
抓取
网页内容
在处理
网页内容
时
,还需要考虑网页编码
问题
,确保正确地解码和编码数据,避免出现乱码。此外,为了提高
抓取
效率和处理动态加载的网页,可能需要用到`BeautifulSoup`这样的库来辅助解析,或者配合Selenium等工具模拟...
基于JAVA技术的
网页内容
智能
抓取
.doc
3. 执行
抓取
任务:依据配置文件中的规则,发起HTTP请求获取
网页内容
。 4. 内容解析与处理:解析
抓取
到的HTML,根据预设规则提取目标内容并进行进一步的处理。 四、目前缺陷功能描述 尽管系统具有一定的实用性,但也...
Htmlparser
网页内容
抓取
java
在
网页内容
抓取
领域,HTMLParser扮演着至关重要的角色,它可以帮助开发者高效、准确地解析复杂的网页结构,从而获取所需的信息。以下是对HTMLParser及其应用的详细介绍。 首先,HTMLParser提供了对HTML文档的解析...
网页文字
抓取
器
1. **网络请求**:首先,
抓取
器需要能够向目标网站发送HTTP或HTTPS请求,获取网页的源代码。这通常通过编程语言如Python的requests库或者Java的HttpURLConnection实现。 2. **HTML解析**:获取到网页源码后,需要...
Framework
4,250
社区成员
4,522
社区内容
发帖
与我相关
我的任务
Framework
国内外优秀PHP框架讨论学习
复制链接
扫一扫
分享
社区描述
国内外优秀PHP框架讨论学习
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章