现在要实现的是
通过程序模拟浏览器访问Google查询结果,并对搜索出来的网址进行收集(这部分的功能已经实现)
问题是现在要对收集到的网址进行判断,判断是否是主页
例如:搜索“有限公司” 搜索出很多地址,有些是公司的主页 有些则是招聘信息或者广告之类的。
问题是 如何来辨别这些地址那些是公司的主页?
我在网上查过,有说判断RP值的,但是通过实践发现并不保准……
请高手给个思路和指点!搜索Google主页