怎样把一个网页里的附属文件搜索出来,然后上传?

1，如果附属文件是这样的html <a href=aa.zip>safd</a>
那可以判断扩展名像*.zip,rar,doc,pdf等等，那都是下载文件。这比较好办。2如果是这样。<a href=download.jsp?id=2323>safd</a>这就不好办了。。呵呵。谁知道这个download.jsp?id=2323连接下是什么呀。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

就是搜索html文件里的附属文件,如图片,flash等.好像要先预览一下,根据网页内容判断有那些附属文件,具体怎么实现?请问kjerry2002,怎么知道那些文件是该html网页的附属文件?
JSP ?
如果可以把要上传的文件内容读出来，那除非这个文件已经被上传到服务器端了。
此时只能通过服务器端去分析文件内容，然后构造一个网页返回给客户端，上面列出了所有需要上传的附件，每个后面有一个浏览按钮和一个确认按钮（因为你的web不能主动去读取本地文件，所以需要用户自己来点确定以提交 <input file>）。
用户看到这个附件列表，通过点确认按钮来确定。如果发现不正确的，可以用浏览按钮来选择正确的地址。服务器端分析上传的网页内容这个问题实质上就是分析 html 文件结构。你可以用一些 html 解析器来做（sorry，这我就不熟悉了，毕竟用vc和ms的东西比较多。可能有人会告诉你可以用xml解析器，但因为xml对语法要求非常严格，而html往往不严格，所以这种方法基本没有可用性），也可以自己用字符串匹配的方式来做——好比楼上说的那样。但重点是区分哪些对于上传的网页来说是“本地文件”，哪些是引用的内容——引用内容就不用上传了。你的这个问题比较有意思，就像用FrontPage编辑网页最后提醒你保存相关文件那样，有一定的挑战性。一般都是让用户自己来做这件事情的，呵呵。
至于是否是本地文件，要从 URI 协议说起。
简单说，就是在html中凡是涉及到 url 的地方，没有使用 http:// rctp:// ftp:// 等等协议头外加主机地址（或域名）的，基本上都是相对引用，也就是“本地”引用。
其实我的问题没有那么复杂,就当是一个文件夹里又很多html文件,现在就是浏览本地的一个html文件,然后知道那些附属文件属于该网页,然后把他拷贝到另一个文件夹.要用java实现
关键是怎么解析html文件,分析里面的标签.得到用到的资源.