怎样遍历internet某个网站上的某个url路径下的全部文件

tmoonlight 2010-04-24 02:29:19
背景是这样的:

我想编一个程序,能获取某一个url下的 比如: http://www.okok.com//d/478/
这个 url下的 所有文件。
因为 它下面的文件时以数字来命名的,所以 我明前是 程序 自动加1的 去获取,比如
http://www.okok.com//d/478/1.jpg , http://www.okok.com//d/478/2.jpg .....

可是 我突然 发现, 有些是6-7.jpg 所以 就没法用一个通用的算法获取了。 说不定 下次可能是 3-8.jpg
而且 后缀名也是有 jpg或者 png等

所以 与其自己写 很多if来 判断, 不如 让程序能像 遍历本地计算机上的某个文件夹下的 文件那样 去遍历 该多好!!

所以 想问下 有人知道怎么遍历吗?

谢谢啦

url是
http://www.narutom.com/comic/8708.html?p=15
...全文
712 13 打赏 收藏 转发到动态 举报
写回复
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
x_pengcheng 2010-04-27
  • 打赏
  • 举报
回复
htmlParse 开源包可以很方便的解析。
zhujunyu123456 2010-04-27
  • 打赏
  • 举报
回复
顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶
zhujunyu123456 2010-04-27
  • 打赏
  • 举报
回复
顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶
蒋晟 2010-04-27
  • 打赏
  • 举报
回复
你可以找一个调试用的代理服务器抓一下点下一页的时候和服务器之间的HTTP通讯
然后判断一下HTML和HTTP通讯之间的关系,以便于自己模拟HTTP请求
franva008 2010-04-24
  • 打赏
  • 举报
回复
谢谢上面的 朋友们的思路

但是要说一下的是 正则表达式 一定不行。

说用正则的 朋友们 估计还没去看过 那个网页。

请打开网页看一下。 那个是个漫画连载的网页。 每个网页上 只有1个漫画的 图片和 多个不相干的非漫画图片。

而通往下一页 漫画图片的 那个DropDownList 是由服务器动态生成的。 所以 在那个网页的 内容里 是没有其他漫画页面的 url的。

您用正则表达式 的基础是 在这个网页的 内容上要有接着动画网页的 url。 但是 这里没有

所以说 前提都不符合。 所以 就用不了 正则表达式了。

看来 思路方向不对。

请大家 想想 还有其他方法吗? 还有 所有一切和 网页解析 得到可用url的 方法都应该不使用本网站

所以 请大家 想想 别的 思路吧

谢谢啦
yueguangkai001 2010-04-24
  • 打赏
  • 举报
回复
我看是算了,这样的程序估计不是你那样简单的弄几下就OK了的

不是有一个工具,叫做网页整荡器什么的,应该就是你所要的程序了
零起跑线 2010-04-24
  • 打赏
  • 举报
回复
理论上来用枚举是万能的,可是这开销。。。。。
蒋晟 2010-04-24
  • 打赏
  • 举报
回复
http协议不支持。再说很多文件下载不到的,比如web.config,index.aspx等等。还是分析页面上的链接比较靠谱。
zfq642773391 2010-04-24
  • 打赏
  • 举报
回复

Pattern pattern = Pattern.compile("href=\"(.+?)\"");
Matcher matcher = pattern.matcher("<a href=\"index.html\">主页</a>");
if(matcher.find())
System.out.println(matcher.group(1));
}

这个正则用来获得href=""里的网址
amdgaming 2010-04-24
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 zfq642773391 的回复:]

试一下用正则表达式去匹配这些url网址
[/Quote]
定 呵呵 应该不难
zfq642773391 2010-04-24
  • 打赏
  • 举报
回复
试一下用正则表达式去匹配这些url网址
Aniao 2010-04-24
  • 打赏
  • 举报
回复
不大可能,本地的磁盘格式比如EXT等都会根据一个目录的inode找到对应存储块,里面存有所有文件的inode。

但是对方的目录下不一定你有浏览权限,如果有浏览权限倒好说,可惜……几率太小

我试着用浏览器访问了下那个目录,发现被定位到其他地方了
franva008 2010-04-24
  • 打赏
  • 举报
回复
特例 地址是 这里
http://www.narutom.com/comic/8809.html?p=6

卡通图片地址是在一个叫做 tbComic 的table装着呢

谢谢啦
相关推荐

62,568

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告