关于html 里面超连接,有哪几种表达超连接的方式么?
因为我要找到这些连接,然后要转换成可以浏览的URL。
比如一行html代码里有: href="artist.html?id=3" 这个连接是在父连接下的一个连接,完整的比如应该是:www.yahoo.com/artist.html?id=3
我需要把artist.html?id=3转换成www.yahoo.com/artist.html?id=3 因为我还需要找到www.yahoo.com/artist.html?id=3这个下面的子连接。
但是超连接的写法好像有很多,有高手能帮帮忙想想有什么好办法解决这个问题么。
因为我要找到这些连接,然后要转换成可以浏览的URL。
比如一行html代码里有: href="artist.html?id=3" 这个连接是在父连接下的一个连接,完整的比如应该是:www.yahoo.com/artist.html?id=3
我需要把artist.html?id=3转换成www.yahoo.com/artist.html?id=3 因为我还需要找到www.yahoo.com/artist.html?id=3这个下面的子连接。
但是超连接的写法好像有很多,有高手能帮帮忙想想有什么好办法解决这个问题么。
比如说这样一个方法:
public void handleSimpleTag(HTML.Tag t,
MutableAttributeSet a,int pos)
{
String href = (String)a.getAttribute(HTML.Attribute.HREF);
if( (href==null) && (t==HTML.Tag.FRAME) )
href = (String)a.getAttribute(HTML.Attribute.SRC);
if ( href==null )
return; int i = href.indexOf('#');
if ( i!=-1 )
href = href.substring(0,i); if ( href.toLowerCase().startsWith("mailto:") ) {
report.spiderFoundEMail(href);
return;
} handleLink(base,href);
}有朋友做过类似的东西么?能解释下么?我不是很看的懂,有点难理解...谢谢了。
/就是绝对的路径,一般都是以网站的跟目录算起,
或者用想对目录,也是一种,他是以当前网页所在目录为标准的
比如网站跟目录为:c:\webapps\myweb\
目录下有 1.jsp,2.jsp
如果在1.jsp有个连接想连接到2.jsp,第一就是\myweb\2,jsp,或者 ,2.jsp-----"\":代表根
如果不在一个目录就用..\返回上一级,返回两级就..\..\如果是下一级就用下级目录名(比如说:form).就用form/XX.jsp
不知道满意否
估计LZ是想研究web爬虫技术吧。
要满足LZ的需要,首先楼主要非常熟悉Html语言里面的相对路径。
也可以直接去看看开源项目:Heritrix、J-Spider等。
我也是听说,帮不上忙。
有高手来谈谈么?