爬虫遇到JS代码时,尤其像新浪博客中的翻页,其“下一页”的链接是隐藏在JS代码中的,这时需要用到JS引擎对源码中的Script标签进行解析。 
    看了一下V8和SpiderMonkey,不过资料太少,不知道怎么在C#控制台程序中使用。
    HTML解析器HtmlParser也看了一下,不知道能不能对script标签进行解析,如果可以,怎么做??
    请各位大神不吝赐教,感激不尽!

解决方案 »

  1.   

    非常感谢您的回答!
    正则表达式只能只能匹配出显示出来的字符串,有些链接是隐藏在JS代码中,在页面源码中是完全看不出规律的,这时候应该怎么办??
    比如:徐小明博客首页http://blog.sina.com.cn/xuxiaoming8
    源码中对应的“下一页”的链接应该怎么匹配呢??
      

  2.   

    直接获取html流,等于是获取html页面的源码,然后根据源码内容用正则获取
      

  3.   

    这样是匹配不出JS里隐藏的链接的
    比如:徐小明博客首页http://blog.sina.com.cn/xuxiaoming8
    源码中对应的“下一页”的链接应该怎么匹配呢??