想做个小程序,实现从网上抓取某些图书的信息,比如图片、价格。貌似这些只有几个大的网站才有比如当当但是怎么样才能从当当网下载我需要的图书的页面?http://product.dangdang.com/product.aspx?product_id=20910562比如这本书,我怎么才能得到product_id...如果有别的可行的思路,也可以。

解决方案 »

  1.   

    我去年做过一个,抓取京东、当当、卓越亚马逊的图书信息的,如果有需要,留一个邮箱,发给你参考一下吧。主要思路就是模拟请求-》获取html-》解析但是问题就是,当要抓取的页面结构发生变化的时候,代码也要跟着变动。这个代码如果现在抓取不到数据的话, 你可以自己debug一下, 很可能是因为对方页面结构变动之后,没有正确匹配的关系。记得给给我分哦
      

  2.   

    感谢2楼,求发哈。[email protected]
      

  3.   

    正则抓取啊。写个winform模拟浏览器去访问就可以了然后把下载的html进行正则抓起。希望楼主有request的方面的知识。要看懂浏览器的请求头。其他就ok了
      

  4.   

    先了解http协议啊。用httpwatch观察http请求报文。先得有大概思想。
      

  5.   

    谢谢1楼,麻烦发个我参考下
    [email protected]
      

  6.   

    2位,lichaoasd、CrazyCode1981, 我把代码发到你们邮箱了,写的不太好,有什么好的想法一起交流啊
      

  7.   

    Analysor文件夹下的类,就是对外的分析图书信息的类,其他的都是分析底层结构,你们可以自行进行修改