Java 采集网站信息的问题

各位大虾，小弟菜鸟一个，不过最近需要用java作一个可以采集指定网站信息的程序，现在完全没有头绪，希望大家帮忙，给些相关提示也好举例：程序中添加搜索词，然后采集Google，baidu之类的搜索信息，最后程序显示出搜索词的排名等

1 使用URLConnection 拿到页面信息
2 使用正则解析页面
3 处理你的结果第一个功能你可以参考我的一个帖子 http://www.java2000.net/viewthread.jsp?tid=2875
需要写一个  spider  ..    然后处理结果..
搜索引擎之中文分词实现（java版）
http://dev.csdn.net/author/jnsuyun/93a3a18757e34954ad24e1a3a2a2902c.html
我知道一个开源包可以直接抓取网站页面的table内容,htmlparser,试试吧
这个比较...我也不知道如果有百度提供API应该更好做吧
用蜘蛛加一个开源的框架。好像是lunce什么的
htmlParser：http://ishare.iask.sina.com.cn/f/7437897.html?from=like