我想做一个这样的东西:
有一个网站提供一个信息的查询功能,我可以向网站的相应输入框中输入我的关键字,来获得我想查看的信息。
但是我现在有很多的待查关键字,人工查太慢,工作量太大,所以我想做一个自动化的东西来未完成。
大致是将需要检索的关键字放在一个文件中,然后一个个遍历;每取到一个关键字就向网站发送信息;然后
接收信息;解析接收到的数据包,然后从中找到我需要的信息。现在我有两个问题
1.对方网站提供的的form表单查询的方式,我如何将我的数据请求发送出去呢?
2.我如何接收对方反馈的数据包,这个数据包的格式是怎么样的?
希望有人能提供些参考,或者能告诉我需要看那方面的书,资料也行。

解决方案 »

  1.   

    这个问题好像比较容易. 既然是网站, 请求无非是get/post. 如果你要获取相应关键字在他人网站的信息, 很简单:
    1. 了解他们的search form是post还是get.
    2. 每个关键字, 模拟一个http请求发送到对方的网站
    3. 解析请求后返回的html.你可以试试apache commons 的httpclient
    http://hc.apache.org/httpclient-3.x/methods.html
      

  2.   

    用httpClient 可以模拟 浏览器。 
    用post 或者 get方法 发送请求, 用HttpResponse 得到 对方返回的InputStream,解析这个流,得到 网站返回的信息