怎样用java抽取html的链接和链接的文本,谢谢

解决方案 »

  1.   

    链接的文本好像不行,期待高手出现import javax.swing.*;
    import javax.swing.event.*;
    import java.io.*;
    import java.net.*;
    class GetURL extends JFrame{
    JEditorPane pane;
    public GetURL(URL url){
    try{
    pane = new JEditorPane(url);
    }catch(Exception e){
    e.printStackTrace();
    }

    pane.setEditable(false);

    pane.addHyperlinkListener(new HyperlinkListener(){

    public void hyperlinkUpdate(HyperlinkEvent e){
    if(e.getEventType() == HyperlinkEvent.EventType.ACTIVATED){
    URL url = e.getURL();

    try{
    //打印URL
    System.out.println(url.toString());
    pane.setPage(url);
    }catch(Exception ex){
    ex.printStackTrace();
    }

    }
    }
    });
    this.getContentPane().add(pane);
    this.setSize(400, 400);
    this.setVisible(true);
    }
    public static void main(String[] args){
    try{
    URL url = new URL("http://www.csdn.net");
         new GetURL(url);
    }catch(Exception e){
    e.printStackTrace();
    }
        }
    }======================================================
    每次点击一个链接,便会打印这个链接到控制台
      

  2.   

    <A href="http://www.w3.org/RDF/">xxxxx</A>  我想得到xxxxx文本
      

  3.   

    介绍你去看看,虽然用来提取html中的链接有点大材小用:
    http://sourceforge.net/projects/htmlparser/
      

  4.   

    我也面临这个问题,我用javax.swing.html包里的东西,能够提取我需要的某个标签,但是,标签需要有个ID属性才可以。至于标签包含的内容,需要获得标签的位置,然后由文档输出但是还是麻烦
    其他其他解法。。