在网上找了好多都没有用,有的只是针对某一个网站采集没有实际意义
  大家帮个忙指导下或者给我发些这方面的网站
  小弟先谢谢了
  

解决方案 »

  1.   

    定义采集关键字
    对关键字进行搜索,获取采集信息站点信息
    分析站点HTML信息,获取内容,作者,发布时间等信息
    将分析的HTML结果生成静态页,并发布到指定站点任务 & 多线程:可以同时执行多个采集任务,每个任务又可以使用多个线程。
    通过N层导航技术,可以进行海量采集。
    插件调用,可以通过二次开发扩展功能。
    历史记录功能,有效避免重复采集。
    任务列队功能,当有大量任务同时运行时,可以分批、排队。
    跨层采集功能,能够对复杂的网站结构进行采集。
    可以对采集结果进行筛选。
    采集任务可以进行分类,采用树型目录管理。
    定时采集、自动关机。
    断点续采,即软件关闭后,下次打开可以接着上次的断点采集。参考
    参考
      

  2.   

    顶下
    我昨天搞了一个读取xml文件里面的数据
    不知道这个平常说的数据采集是不是一回事
    呵呵