关于PHP文章采集的3个问题.

1 一般采集都有一个入口.只要入口变了.一般来说就更新了.
如新闻LIST页面.2 自动采集.需要你在服务器端后台定时启用.3 多线程,多服务器.

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

1. 记录采集的URL地址, 存在就说明以前采过
2. 1) 服务增加计划任务 2) 用户触发
3. 多开几个同是执行.  ^_^
楼主要是能实现这个，可以赶上百度新闻了了！1、如何只采集更新的内容？
如果Id是有规则的，每次保存时，保存最后的一个id，下次采集时判断，大于这个就集止！
如果没有，只能和上一次采集的对比！
2、自动不知道！
   查一下自动执行pHP3、效率要先提源码再采集！这取决全网络；第二是保存内地再提取，这取决于网络和程序架构！
如果说新闻这些新闻有个id的话应该可以从这入手,但是没有id你怎么实现?
那么他的文件命名是有规律的吧？比如以日期为命名的，那可以比较大小啊！
感谢各位的意见,今天感冒发烧了躺了一天,刚上来看看.
-----------------------------
1.上面有朋友说到新闻id的问题,我要采集的是类似45E4A79E000915BD.htm的不规则文件名,所以从id入手估计不可行了.这个和chinmo的看法是一样的.然后说到保存url进行比较,这个我目前也是这样做,就是太影响效率了.而且数据越多越慢,这个好像不太可行.
2.自动执行php这个我还是不明白,我目前的想法是在本地机子写一个批处理文件,然后定时执行,不过这个好像也是下策吧.
3.效率问题,因为本人是菜鸟水平,对多线程多服务器之类的做法还不是很明.不知道有无老鸟给指个方向.
我今天刚好写了个采集的.不过和你的不太相同..我是用自己的数据去查别人的数据,再采集的..最重要是找到规律就行了.比如生成HTML一般都是文件名有规律.如果是ID的话,也会有规律的.
dada20042030 你实现的是不是类似搜索google,然后采集的功能呢?