怎样遍历internet某个网站上的某个url路径下的全部文件 本帖最后由 tmoonlight 于 2010-04-24 02:31:57 编辑 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 特例 地址是 这里 http://www.narutom.com/comic/8809.html?p=6卡通图片地址是在一个叫做 tbComic 的table装着呢谢谢啦 不大可能,本地的磁盘格式比如EXT等都会根据一个目录的inode找到对应存储块,里面存有所有文件的inode。但是对方的目录下不一定你有浏览权限,如果有浏览权限倒好说,可惜……几率太小我试着用浏览器访问了下那个目录,发现被定位到其他地方了 试一下用正则表达式去匹配这些url网址 Pattern pattern = Pattern.compile("href=\"(.+?)\""); Matcher matcher = pattern.matcher("<a href=\"index.html\">主页</a>"); if(matcher.find()) System.out.println(matcher.group(1)); } 这个正则用来获得href=""里的网址 http协议不支持。再说很多文件下载不到的,比如web.config,index.aspx等等。还是分析页面上的链接比较靠谱。 谢谢上面的 朋友们的思路但是要说一下的是 正则表达式 一定不行。说用正则的 朋友们 估计还没去看过 那个网页。请打开网页看一下。 那个是个漫画连载的网页。 每个网页上 只有1个漫画的 图片和 多个不相干的非漫画图片。而通往下一页 漫画图片的 那个DropDownList 是由服务器动态生成的。 所以 在那个网页的 内容里 是没有其他漫画页面的 url的。您用正则表达式 的基础是 在这个网页的 内容上要有接着动画网页的 url。 但是 这里没有所以说 前提都不符合。 所以 就用不了 正则表达式了。看来 思路方向不对。 请大家 想想 还有其他方法吗? 还有 所有一切和 网页解析 得到可用url的 方法都应该不使用本网站所以 请大家 想想 别的 思路吧谢谢啦 你可以找一个调试用的代理服务器抓一下点下一页的时候和服务器之间的HTTP通讯然后判断一下HTML和HTTP通讯之间的关系,以便于自己模拟HTTP请求 htmlParse 开源包可以很方便的解析。 java中properties会自动清空 new 很大的数组 java问题 下午实验课急用,帮个忙 HashSet的小问题.. 我import时为什么提示这样的错误 连接sql server2000 我该用哪个补丁? 如何读取jar文件中的文件,急!! 大家帮忙解决一下!有4个错误 天啊!!怎么办啊,救命啊 我的程序执行的时候出现了问题,希望有人帮我解决一下。 网络聊天与多线程问题
http://www.narutom.com/comic/8809.html?p=6卡通图片地址是在一个叫做 tbComic 的table装着呢谢谢啦
Pattern pattern = Pattern.compile("href=\"(.+?)\"");
Matcher matcher = pattern.matcher("<a href=\"index.html\">主页</a>");
if(matcher.find())
System.out.println(matcher.group(1));
} 这个正则用来获得href=""里的网址
然后判断一下HTML和HTTP通讯之间的关系,以便于自己模拟HTTP请求