社区
Web 开发
帖子详情
Heritrix种子URL中含有中文~
H~~~
2009-01-12 12:54:55
我用Heritrix1.14.1抓取网页,seed中包含中文,抓取不到东西(不带中文时好使),修改Extractor貌似只能改内容的问题。
基本已经排除数据为动态生成的情况,请各位高手指导,谢谢拉!
...全文
220
8
打赏
收藏
Heritrix种子URL中含有中文~
我用Heritrix1.14.1抓取网页,seed中包含中文,抓取不到东西(不带中文时好使),修改Extractor貌似只能改内容的问题。 基本已经排除数据为动态生成的情况,请各位高手指导,谢谢拉!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
8 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
springbird
2009-06-14
打赏
举报
回复
[Quote=引用 1 楼 rrong_m 的回复:]
没有用过Heritrix1.14.1 用过htmlparser去抓取网页,中文也没问题。只能帮你顶下
[/Quote]
这位大侠,能否交流一下,heritrix中怎么抓取动态网页,我的QQ328843126
goagle
2009-03-21
打赏
举报
回复
我遇到了楼主的问题,楼主能详细解释解决办法吗?转码的步骤应该在哪添加进去呢?要修改Heritrix的代码吗?
H~~~
2009-01-13
打赏
举报
回复
[Quote=引用 1 楼 rrong_m 的回复:]
没有用过Heritrix1.14.1 用过htmlparser去抓取网页,中文也没问题。只能帮你顶下
[/Quote]
shtml也可以用htmlparser去获取内容吗?
H~~~
2009-01-13
打赏
举报
回复
[Quote=引用 5 楼 java2000_net 的回复:]
中文链接你得先编码才可以,URLEncoder.encode
[/Quote]
我已经通过函数转码了,抓下来的都是shtml的文件。
如果用htmlparser,可以获取里面的内容吗?
老紫竹
2009-01-13
打赏
举报
回复
中文链接你得先编码才可以,URLEncoder.encode
H~~~
2009-01-13
打赏
举报
回复
shtml也可以用htmlparser去获取内容吗?
还是有其他的技术?
fulianglove
2009-01-12
打赏
举报
回复
ding!!!
glglglglglgllll
2009-01-12
打赏
举报
回复
没有用过Heritrix1.14.1 用过htmlparser去抓取网页,中文也没问题。只能帮你顶下
Heritrix
爬虫方案
使用
Heritrix
来抓取网页必然会存在一些不需要的数据或者
URL
,需要用正则表达式来过滤到你不想要的东西,抓取和过滤的原理是一样的,就是具有共性的头和尾,把
中
间部分抓出来,正则表达式在抓取
中
应用比较多,也可以称之...
Heritrix
1.14源码分析(4)各个类说明
Heritrix
的类的确很繁琐,往往继承了一层又一层,最多的继承好像有7层。下面就一个包一个包的说明每个类的作用,由于里面
Heritrix
组件分明,很多组件没用到的同时该组件的类我也没怎么接触,所以这里会忽略一部分,如果...
Heritrix
源码分析(四) 各个类说明(一)
Heritrix
的类的确很繁琐,往往继承了一层又一层,最多的继承好像有7层。下面就一个包一个包的说明每个类的作用,由于里面
Heritrix
组件分明,很多组件没用到的同时该组件的类我也没怎么接触,所以这里会忽略一部分 ...
Heritrix
各个类说明
Heritrix
的类的确很繁琐,往往继承了一层又一层,最多的继承好像有7层。下面就一个包一个包的说明每个类的作用,由于里面
Heritrix
组件分明,很多组件没用到的同时该组件的类我也没怎么接触,所以这里会忽略一部分,如果...
Heritrix
源码分析(四) 各个类说明(转)
Heritrix
的类的确很繁琐,往往继承了一层又一层,最多的继承好像有7层。下面就一个包一个包的说明每个类的作用,由于里面
Heritrix
组件分明,很多组件没用到的同时该组件的类我也没怎么接触,所以这里会忽略一部分,如果...
Web 开发
81,090
社区成员
341,731
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章