怎样遍历internet某个网站上的某个url路径下的全部文件

tmoonlight 2010-04-24 02:29:19
背景是这样的:

我想编一个程序,能获取某一个url下的 比如: http://www.okok.com//d/478/
这个 url下的 所有文件。
因为 它下面的文件时以数字来命名的,所以 我明前是 程序 自动加1的 去获取,比如
http://www.okok.com//d/478/1.jpg , http://www.okok.com//d/478/2.jpg .....

可是 我突然 发现, 有些是6-7.jpg 所以 就没法用一个通用的算法获取了。 说不定 下次可能是 3-8.jpg
而且 后缀名也是有 jpg或者 png等

所以 与其自己写 很多if来 判断, 不如 让程序能像 遍历本地计算机上的某个文件夹下的 文件那样 去遍历 该多好!!

所以 想问下 有人知道怎么遍历吗?

谢谢啦

url是
http://www.narutom.com/comic/8708.html?p=15
...全文
906 13 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
x_pengcheng 2010-04-27
  • 打赏
  • 举报
回复
htmlParse 开源包可以很方便的解析。
zhujunyu123456 2010-04-27
  • 打赏
  • 举报
回复
顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶
zhujunyu123456 2010-04-27
  • 打赏
  • 举报
回复
顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶 顶顶顶顶
蒋晟 2010-04-27
  • 打赏
  • 举报
回复
你可以找一个调试用的代理服务器抓一下点下一页的时候和服务器之间的HTTP通讯
然后判断一下HTML和HTTP通讯之间的关系,以便于自己模拟HTTP请求
franva008 2010-04-24
  • 打赏
  • 举报
回复
谢谢上面的 朋友们的思路

但是要说一下的是 正则表达式 一定不行。

说用正则的 朋友们 估计还没去看过 那个网页。

请打开网页看一下。 那个是个漫画连载的网页。 每个网页上 只有1个漫画的 图片和 多个不相干的非漫画图片。

而通往下一页 漫画图片的 那个DropDownList 是由服务器动态生成的。 所以 在那个网页的 内容里 是没有其他漫画页面的 url的。

您用正则表达式 的基础是 在这个网页的 内容上要有接着动画网页的 url。 但是 这里没有

所以说 前提都不符合。 所以 就用不了 正则表达式了。

看来 思路方向不对。

请大家 想想 还有其他方法吗? 还有 所有一切和 网页解析 得到可用url的 方法都应该不使用本网站

所以 请大家 想想 别的 思路吧

谢谢啦
yueguangkai001 2010-04-24
  • 打赏
  • 举报
回复
我看是算了,这样的程序估计不是你那样简单的弄几下就OK了的

不是有一个工具,叫做网页整荡器什么的,应该就是你所要的程序了
零起跑线 2010-04-24
  • 打赏
  • 举报
回复
理论上来用枚举是万能的,可是这开销。。。。。
蒋晟 2010-04-24
  • 打赏
  • 举报
回复
http协议不支持。再说很多文件下载不到的,比如web.config,index.aspx等等。还是分析页面上的链接比较靠谱。
zfq642773391 2010-04-24
  • 打赏
  • 举报
回复

Pattern pattern = Pattern.compile("href=\"(.+?)\"");
Matcher matcher = pattern.matcher("<a href=\"index.html\">主页</a>");
if(matcher.find())
System.out.println(matcher.group(1));
}

这个正则用来获得href=""里的网址
amdgaming 2010-04-24
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 zfq642773391 的回复:]

试一下用正则表达式去匹配这些url网址
[/Quote]
定 呵呵 应该不难
zfq642773391 2010-04-24
  • 打赏
  • 举报
回复
试一下用正则表达式去匹配这些url网址
Aniao 2010-04-24
  • 打赏
  • 举报
回复
不大可能,本地的磁盘格式比如EXT等都会根据一个目录的inode找到对应存储块,里面存有所有文件的inode。

但是对方的目录下不一定你有浏览权限,如果有浏览权限倒好说,可惜……几率太小

我试着用浏览器访问了下那个目录,发现被定位到其他地方了
franva008 2010-04-24
  • 打赏
  • 举报
回复
特例 地址是 这里
http://www.narutom.com/comic/8809.html?p=6

卡通图片地址是在一个叫做 tbComic 的table装着呢

谢谢啦
第4章 MFC实用技术 93 4.1 MFC常用宏应用 94 0188 获取32位整数的低字节和高字节数据 94 0189 将两个16位数组合为一个32位数 94 4.2 MFC常用函数 94 0190 MFC常用调试函数 94 0191 判断某个句柄是否关联一个窗口 95 0192 MFC应用程序信息和管理函数 95 0193 Internet URL解析全局函数 95 4.3 MFC框架技术 96 0194 在类的定义时使其具有运行时类型识别的功能 96 0195 运行时判断某个对象是否是指定的类型 96 0196 禁止文档/视图应用程序运行时显示视图选择窗口 96 0197 多个窗口消息共享同一个消息处理函数 98 0198 遍历对话框中的子控件 99 0199 在程序中捕捉CException及其派生类的异常 100 0200 扩展消息映射宏 100 0201 THIS_FILE的含义 100 0202 为静态文本控件命名 100 0203 在基于对话框的应用程序中添加文档\视图的支持 101 0204 解析浮动状态下工具栏的父窗口 101 4.4 MFC编程技术 101 0205 根据位图资源ID获取位图大小 101 0206 将某个控件对象关联到对话框中的控件资源 102 0207 将一个全局函数指针关联到对话框类的某个方法 102 0208 修改应用程序的图标 102 0209 使用安全数组 103 0210 将子窗口的客户区域映射到父窗口中 103 0211 判断两个时间段的差距 103 0212 重新设置工程名称 103 0213 为dll文件生成lib文件 104 0214 如何将一个工程中的部分资源加到另一个工程中 104 0215 根据句柄获得窗口对象的方法 104 0216 如何共享MSDN 104 0217 从完整的文件名中去除路径 104 0218 从复合字符串中解析子串 105 0219 如何获得应用程序的完整路径 105 0220 修改对话框图标的几种方法 105 0221 将多个具有不同参数的函数赋值为同一个函数指针 105

62,634

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧