在linux环境下,比如使用htmlparser等这样的系统来抓取网页(只是为了具体说明),刚开始抓取都没有问题,但系统运行一段时间后,所有的网页抓取全部失效,也就是不管抓取任何一个网页都会失败报错,比如:org.htmlparser.util.ParserException: Chaos reigns within. Reflect, repent and enter the correct URL. Order shall return.;
java.net.UnknownHostException: xxxxxx.com
        at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:177)
        at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366)
        at java.net.Socket.connect(Socket.java:529)
        at java.net.Socket.connect(Socket.java:478)
        at sun.net.NetworkClient.doConnect(NetworkClient.java:163)
        at sun.net.www.http.HttpClient.openServer(HttpClient.java:394)
        at sun.net.www.http.HttpClient.openServer(HttpClient.java:529)
        at sun.net.www.http.HttpClient.<init>(HttpClient.java:233)
        at sun.net.www.http.HttpClient.New(HttpClient.java:306)
        at sun.net.www.http.HttpClient.New(HttpClient.java:323)
        at sun.net.www.protocol.http.HttpURLConnection.getNewHttpClient(HttpURLConnection.java:860)
        at sun.net.www.protocol.http.HttpURLConnection.plainConnect(HttpURLConnection.java:801)
        at sun.net.www.protocol.http.HttpURLConnection.connect(HttpURLConnection.java:726)
        at org.htmlparser.http.ConnectionManager.openConnection(ConnectionManager.java:643)
        at org.htmlparser.http.ConnectionManager.openConnection(ConnectionManager.java:841)
        at org.htmlparser.Parser.setResource(Parser.java:422)
        at org.htmlparser.Parser.<init>(Parser.java:331)
        at org.htmlparser.Parser.<init>(Parser.java:345)
这个时候重启应用服务比如tomcat等也没效,除非是将服务器重启,抓取功能才会恢复正常,但同样的是,运行一段时间后会再次出现上面说的问题,请问,这是怎么回事呢?

解决方案 »

  1.   


    这与代码很可能是没有关系的,因为htmlparser只是一个例子,也就是说只要是通过程序,不论是否是htmlparser,访问外部网页都不行!除非重启服务器,我很怀疑是与linux的配置有关系,但又不知道是哪里的问题
      

  2.   

    已解决,是Linux服务器设置问题,见:http://topic.csdn.net/u/20100924/11/e73e57bd-9a5f-4b25-99de-952fb585d84c.html
      

  3.   

    其实很多问题,google一下比发个帖子容易得多。恭喜
      

  4.   


    呵呵,言之有理哦,不过这个帖子 
    http://topic.csdn.net/u/20100924/11/e73e57bd-9a5f-4b25-99de-952fb585d84c.html
    也是我发的,发在linux板块的