我现在要做一个基于sohu博客的社区发现系统,解析网页用的是htmlparser。开始时我直接是解析博客里面的<a href=></a>标签,例如:Parser p=new Parser("http://shihb.blog.sohu.com/");NodeFilter filter=new TagNameFilter("a");NodeList nodelist=p.parser(filter);这样<a></a>标签里面的链接就能被解析出来(包括很多没用的链接)。但后来发现,就像这个博客:http://shihb.blog.sohu.com/,里面左下角的好友那部分的博客链接是不在http://shihb.blog.sohu.com/这个页面的源码上的,好像是通过ajax或者javascript之类的显示出来的,如图。这种方式显示的链接怎样去解析??不局限于htmlparser,大侠可以推荐一个好的框架。
截图的链接(新浪资料的链接,不是病毒)http://ishare.iask.sina.com.cn/cgi-bin/fileid.cgi?fileid=3759255,如果能解决问题,再加分,加加分