http://www.taodake.com/HistoryList_all_4.html这个连接里的,500000条记录,但是分页了!如果能一次性搞出来就好了!

解决方案 »

  1.   

    用jsoup很方便,下个jsoup.jar就可以用了。可能需要在优化下package com.joup;import java.io.IOException;import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;public class Taodake {
    private static String url="http://www.taodake.com/HistoryList_all_";
    private static int start_page = 1;
    private static int last_page = 10;
    public static void main(String[] args){
    Document doc = null;;
    for(int i=start_page;i<last_page;i++){
    try {
    doc = Jsoup.connect(url+i+".html").get();
    } catch (IOException e) {
    System.out.println("第"+i+"页异常");
    e.printStackTrace();
    }
    TaoThread tao = new TaoThread(doc);
    tao.start();
    }
    }
    }package com.joup;import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;public class TaoThread extends Thread{
    private Document doc; public TaoThread() {
    }
    public TaoThread(Document doc) {
    this.doc = doc;
    }
    @Override
    public void run() {
    Elements ids = doc.getElementsByClass("id_td");
    for(Element id:ids){
    System.out.println("取出id:"+id.text());
    }
    }
    }
      

  2.   

    为什么会这样::::java.net.UnknownHostException: www.taodake.com
      

  3.   

    id是取出来了,但是我想要中文ID,怎么一对一绑定现实出来呢?
      

  4.   


    package com.joup;import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;public class TaoThread extends Thread{
    private Document doc; public TaoThread() {
    }
    public TaoThread(Document doc) {
    this.doc = doc;
    }
    @Override
    public void run() {
    Elements ids = doc.getElementsByClass("id_td");
    Elements names = doc.getElementsByClass("zh_td");
    for(int i=0;i<ids.size();i++){
    System.out.println("id:"+ids.get(i).text()+" zh:"+names.get(i).text());
    }
    }
    }
    可以研究下jsoup,很方便
      

  5.   


    第3900页异常
    java.net.SocketTimeoutException: connect timed out;打开网页有点慢就挂了!