爬虫遇到JS代码时,尤其像新浪博客中的翻页,其“下一页”的链接是隐藏在JS代码中的,这时需要用到JS引擎对源码中的Script标签进行解析。
看了一下V8和SpiderMonkey,不过资料太少,不知道怎么在C#控制台程序中使用。
HTML解析器HtmlParser也看了一下,不知道能不能对script标签进行解析,如果可以,怎么做??
请各位大神不吝赐教,感激不尽!
看了一下V8和SpiderMonkey,不过资料太少,不知道怎么在C#控制台程序中使用。
HTML解析器HtmlParser也看了一下,不知道能不能对script标签进行解析,如果可以,怎么做??
请各位大神不吝赐教,感激不尽!
正则表达式只能只能匹配出显示出来的字符串,有些链接是隐藏在JS代码中,在页面源码中是完全看不出规律的,这时候应该怎么办??
比如:徐小明博客首页http://blog.sina.com.cn/xuxiaoming8
源码中对应的“下一页”的链接应该怎么匹配呢??
比如:徐小明博客首页http://blog.sina.com.cn/xuxiaoming8
源码中对应的“下一页”的链接应该怎么匹配呢??