最近我要写一个模拟网络爬虫的程序.但是我不知道在html源文件里,怎么提取出链接.超级键连的标志是什么?因为有些键连不是绝对路径的,只是相对路径.希望高手能够告诉.我原来是只提取http:// 开头的,但是不完全.希望高手能够告诉.此外,如果想用正则表达式的话,怎么表示?
谢谢!!!

解决方案 »

  1.   

    就是网页源文件里面的.我是用java写程序的.对html语言不是很熟悉!!
      

  2.   

    写Java程序的,基本上对HTML的掌握是基本功,因为用Java做B/S的实在太普遍了
      

  3.   

    我觉得,你连HTML语法都不熟悉,怎么搞JAVA呢?
      

  4.   

    html库  搜一下 html标签
    你说的超链接 就是 <a>标签 你说的是它吧
      

  5.   

    使用htmlparser,它带有你需要的示例代码,目前最高版本1.6
      

  6.   

    见意你先好好学习html
    再结合正则,处理这些,才会得心应手!
      

  7.   

    我现在 也在弄这种东西  就是在html 中找连接不明不白的
    能给个小例子吗????   帮帮忙啊  !!!