我现在有个需求,举个例子说:做一个图书查询网站,当用户提交信息后我们的网站到当当图书,淘宝图书等一些网上书店的数据库中查询相关的信息,整合后再反馈给用户。我曾经看见过某个网站是在别的网站取得信息。怎么在他们的数据库中取到数据我想有两个方法方法一:他提供一个查询入口给我们用。存在问题: 行业中有没有这种提供查询入口的网站,比方说淘宝图书会不会给你提供一个查询入口,还是可以跟他合作。方法二:按照他的网站设计的提交规则,我们用程序提交过去,之后分析他返回的HTML文件,取得我们关注的信息。存在问题:频繁查询会要求输入验证码,验证码怎么自动识别是个问题。即使是识别了那么我们也是使用的非正常手段,有可能会受到法律追究。  还有可能他会封你的IP。   还有就是一些网站过于复杂,很难分析对该提交那些信息和准确的提取所需信息,而且他的一个小小的改变你就可能该源代码。大家议论一下,看看有没有什么好的建议。 

解决方案 »

  1.   

    我觉得用正则表达式去匹配,别人肯定不可能给你数据库的,
      

  2.   

    不可能的吧,这样信息安全得不到保证
      

  3.   

    再举个例子,航空信息是航空公司还是机场来发布信息,那我们怎么能方便的拿到信息,它们发布信息会有借口来供想得到信息的人来读取呢,向携程网这样的网站它们是怎么取得航空信息的呢。