如题,有的失效的网页会连接到其它指定的地址,等待时间会很长,如何处理这种情况?谢谢 

解决方案 »

  1.   

    设个最长时限 超过了就判为失效链接
      

  2.   

    楼上兄弟能不能说下具体如何设置,另外我从网上下载的汉语预料有乱码,如何解决这种情况?殗涓轰綍寮勫緱鏈夊悕鏃犲
    鎶婄編浠庡湴鍥句笂鎶瑰幓
    鐐瑰嚮閲戣瀺鍗辨満涓嬬殑濂囬椈寮備簨
    瀹濅笌娉板浗鎬荤悊闃挎姭瀹炰細璋
    湰绉拌胺姝屽湴鍥炬病渚电姱闅愮
    宀佸競闀胯溁铚撶偣姘村畼浼氶
    閭撳皬骞虫浘缁欐潕杩炴澃鍐欎笁鍙
    杩涘寲鍚庤摑瀹犺繕鏈変笉
    鍏絔鎵撲功鍓嶏紝鎬庢牱淇濈暀
    钃濈墮浼犲瘑淇濆崱鍥剧墖锛岃繃鏃朵簡
    环鏍硷紝鎵炬墜鏈虹煡閬撱
    鑳芥敹鍒版棤甯稿拰鐐肩嫳鍟婏紵
    甯愬彿閫氾細涓婃父鎴忥紝鏇寸渷浜
    鎬绘槸鎯崇潃濂癸紝鎵嬫満鐪嬬湅濂瑰湪涓嶏紵
    笅杩樺樊澶氬皯鑳戒粠绂忔棤鍒峰洖鏉
    兘鏈変粈涔堢畝鍗曟柟娉曞悧锛燂紵锛
    杩涘寲鍚庤摑瀹犺繕鏈変笉
    鍏絔鎵撲功鍓嶏紝鎬庢牱淇濈暀
    浣曞姞鐐癸紵鏁忔敾锛熸晱琛
    甯愬彿閫氾細涓婃父鎴忥紝鏇寸渷浜
    甫楂樹綆娈嬶紝寮鸿韩锛岄緳楝煎甫楂樹綆鐖嗭紝淇
    粈涔堟牱鐨勫疂瀹濓紝鍗栬兘澶氬皯锛屾湰鍖哄彾瀛
    鏂版敼鐨勪粈涔堣祻閲戜换鍔
    濡備綍鑳芥弧瓒充慨鐐肩殑闇
    噷鏈夋椂闂存寲瀹濓紒浠
    慨鐐紐杩樻湁鐨勭帺鍚楋紵
      

  3.   

    对于失效网页,也可以设置个尝试链接数,因为网页失效时,爬虫会不断的去尝试链接,
    当尝试连接数超过时,就认为该网页链接失败。
    下载的汉语语料有乱码,那是编码的问题
    注意下网页的编码方式,以及你读取网页时用的编码方式
    及你写入文件时用到的编码方式