怎样遍历internet某个网站上的某个url路径下的全部文件

本帖最后由 tmoonlight 于 2010-04-24 02:31:57 编辑

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

特例地址是这里
http://www.narutom.com/comic/8809.html?p=6卡通图片地址是在一个叫做 tbComic 的table装着呢谢谢啦
不大可能，本地的磁盘格式比如EXT等都会根据一个目录的inode找到对应存储块，里面存有所有文件的inode。但是对方的目录下不一定你有浏览权限，如果有浏览权限倒好说，可惜……几率太小我试着用浏览器访问了下那个目录，发现被定位到其他地方了
试一下用正则表达式去匹配这些url网址
Pattern pattern = Pattern.compile("href=\"(.+?)\"");
Matcher matcher = pattern.matcher("<a href=\"index.html\">主页</a>");
if(matcher.find())
  System.out.println(matcher.group(1));
} 这个正则用来获得href=""里的网址
http协议不支持。再说很多文件下载不到的，比如web.config,index.aspx等等。还是分析页面上的链接比较靠谱。
谢谢上面的朋友们的思路但是要说一下的是正则表达式一定不行。说用正则的朋友们估计还没去看过那个网页。请打开网页看一下。那个是个漫画连载的网页。每个网页上只有1个漫画的图片和多个不相干的非漫画图片。而通往下一页漫画图片的那个DropDownList 是由服务器动态生成的。所以在那个网页的内容里是没有其他漫画页面的 url的。您用正则表达式的基础是在这个网页的内容上要有接着动画网页的 url。  但是这里没有所以说前提都不符合。  所以就用不了正则表达式了。看来思路方向不对。  请大家想想还有其他方法吗？  还有所有一切和网页解析得到可用url的方法都应该不使用本网站所以请大家想想别的思路吧谢谢啦
你可以找一个调试用的代理服务器抓一下点下一页的时候和服务器之间的HTTP通讯
然后判断一下HTML和HTTP通讯之间的关系，以便于自己模拟HTTP请求
htmlParse 开源包可以很方便的解析。