1 一般采集都有一个入口.只要入口变了.一般来说就更新了.
   如新闻LIST页面.2 自动采集.需要你在服务器端后台定时启用.3 多线程,多服务器.

解决方案 »

  1.   

    1. 记录采集的URL地址, 存在就说明以前采过
    2. 1) 服务增加计划任务 2) 用户触发
    3. 多开几个同是执行.  ^_^
      

  2.   

    楼主要是能实现这个,可以赶上百度新闻了了!1、如何只采集更新的内容?
    如果Id是有规则的,每次保存时,保存最后的一个id,下次采集时判断,大于这个就集止!
    如果没有,只能和上一次采集的对比!
    2、自动不知道!
       查一下自动执行pHP3、效率要先提源码再采集!这取决全网络;第二是保存内地再提取,这取决于网络和程序架构!
      

  3.   

    如果说新闻这些新闻有个id的话应该可以从这入手,但是没有id你怎么实现? 
    那么他的文件命名是有规律的吧?比如以日期为命名的,那可以比较大小啊!
      

  4.   

    感谢各位的意见,今天感冒发烧了躺了一天,刚上来看看.
    -----------------------------
    1.上面有朋友说到新闻id的问题,我要采集的是类似45E4A79E000915BD.htm的不规则文件名,所以从id入手估计不可行了.这个和chinmo的看法是一样的.然后说到保存url进行比较,这个我目前也是这样做,就是太影响效率了.而且数据越多越慢,这个好像不太可行.
    2.自动执行php这个我还是不明白,我目前的想法是在本地机子写一个批处理文件,然后定时执行,不过这个好像也是下策吧.
    3.效率问题,因为本人是菜鸟水平,对多线程多服务器之类的做法还不是很明.不知道有无老鸟给指个方向.
      

  5.   

    我今天刚好写了个采集的.不过和你的不太相同..我是用自己的数据去查别人的数据,再采集的..最重要是找到规律就行了.比如生成HTML一般都是文件名有规律.如果是ID的话,也会有规律的.
      

  6.   

    dada20042030 你实现的是不是类似搜索google,然后采集的功能呢?