最近在做一个项目,要求实现网页的抓取功能,除了抓取网页还要抓取该网页所引用到的图片,样式表等,总的来说就相当于IE的另存为功能,但该操作必须在后台完成,不能出现对话框,请问该如何实现呢?

解决方案 »

  1.   

    关注一下,先把网页的html源码读如流,然后搜索其中的<img>标签以及相应的字符串,CSS的源 用这个方法也应该可以实现
      

  2.   

    3楼的方法曾经考虑过,但获取了资源后还要自己重构一个目录层次,其中可能要改写html的相关标签,工作量比较大,效果也未必好,而且该网页的资源不见得就只有图片跟样式表。我的想法是能不能有一种已经封装好的dll直接save出来,如果单靠用人手去判断出问题的机会还是比较大
      

  3.   

    WebRunner有抓取WEB控件的功能,封装好的,不过也会有误判;其实写这样一个类主要的就是对于控件的判断算法,想考虑周全的话工作量确实不小,不过还是根据自己的需要写一个比较好,网上的不可能完全满足不同的需求……
      

  4.   

    你可以用这个办法,比较简洁
    http://www.codeproject.com/aspnet/aspnethtml2mht.asp?df=100&forumid=62929&exp=0&select=937294
      

  5.   

    楼上的那个程序集可不可以用在winform里?
      

  6.   

    好像在winform里有点问题啊,当连接一个网站返回一个mhtml字符串时,说没有对象
      

  7.   

    看过了,跟我的需求不同啊====CSDN 小助手 V2.5 2005年11月05日发布====
    CSDN小助手是一款脱离浏览器也可以访问Csdn论坛的软件
    界面:http://blog.csdn.net/Qqwwee_Com/archive/2005/11/05/523395.aspx
    下载:http://szlawbook.com/csdnv2