Heritrix种子URL中含有中文~

H~~~ 2009-01-12 12:54:55
我用Heritrix1.14.1抓取网页,seed中包含中文,抓取不到东西(不带中文时好使),修改Extractor貌似只能改内容的问题。
基本已经排除数据为动态生成的情况,请各位高手指导,谢谢拉!
...全文
220 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
springbird 2009-06-14
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 rrong_m 的回复:]
没有用过Heritrix1.14.1 用过htmlparser去抓取网页,中文也没问题。只能帮你顶下
[/Quote]
这位大侠,能否交流一下,heritrix中怎么抓取动态网页,我的QQ328843126
goagle 2009-03-21
  • 打赏
  • 举报
回复
我遇到了楼主的问题,楼主能详细解释解决办法吗?转码的步骤应该在哪添加进去呢?要修改Heritrix的代码吗?
H~~~ 2009-01-13
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 rrong_m 的回复:]
没有用过Heritrix1.14.1 用过htmlparser去抓取网页,中文也没问题。只能帮你顶下
[/Quote]

shtml也可以用htmlparser去获取内容吗?
H~~~ 2009-01-13
  • 打赏
  • 举报
回复
[Quote=引用 5 楼 java2000_net 的回复:]
中文链接你得先编码才可以,URLEncoder.encode
[/Quote]

我已经通过函数转码了,抓下来的都是shtml的文件。
如果用htmlparser,可以获取里面的内容吗?
老紫竹 2009-01-13
  • 打赏
  • 举报
回复
中文链接你得先编码才可以,URLEncoder.encode
H~~~ 2009-01-13
  • 打赏
  • 举报
回复

shtml也可以用htmlparser去获取内容吗?
还是有其他的技术?
fulianglove 2009-01-12
  • 打赏
  • 举报
回复
ding!!!
glglglglglgllll 2009-01-12
  • 打赏
  • 举报
回复
没有用过Heritrix1.14.1 用过htmlparser去抓取网页,中文也没问题。只能帮你顶下

81,090

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧