我现在要做一个网页爬虫,想把一个网址里面的多级网页下的Email取出来,哪里大侠做过呀请指点.而且现在我连怎么样取出里面的email来都不知道,知道的请赐教谢谢了呀!!!

解决方案 »

  1.   

    如果不是太多,用WebRequest获取一个网址的代码,在这里用正则查到其他网址,在获取代码,用正则匹配邮箱,呵呵,不过现在很多都是把emai地址用一个图片来显示。
      

  2.   

    一,讀取首頁,從中間分析出所有<A>的鏈接地址,轉換成絕對網址(防止細微差異導致重新獲取),讀過的地址保存到數據庫,防止多次讀取.
    二,分析獲取到的網頁,搜索所有的@,把@左邊到>標記及@右邊到<標記的字元讀出來,過濾空格,mailto:,判斷是否爲EMAIL.如果是保存到數據庫.
      

  3.   

    href\s*=\s*["|']?(?<attrval>[^"'<>\s]*)获取href值
      

  4.   

    这个不行,我要取的是后面是http://………………这样的网址