关于PHP文章采集的3个问题. 1 一般采集都有一个入口.只要入口变了.一般来说就更新了. 如新闻LIST页面.2 自动采集.需要你在服务器端后台定时启用.3 多线程,多服务器. 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 1. 记录采集的URL地址, 存在就说明以前采过2. 1) 服务增加计划任务 2) 用户触发3. 多开几个同是执行. ^_^ 楼主要是能实现这个,可以赶上百度新闻了了!1、如何只采集更新的内容?如果Id是有规则的,每次保存时,保存最后的一个id,下次采集时判断,大于这个就集止!如果没有,只能和上一次采集的对比!2、自动不知道! 查一下自动执行pHP3、效率要先提源码再采集!这取决全网络;第二是保存内地再提取,这取决于网络和程序架构! 如果说新闻这些新闻有个id的话应该可以从这入手,但是没有id你怎么实现? 那么他的文件命名是有规律的吧?比如以日期为命名的,那可以比较大小啊! 感谢各位的意见,今天感冒发烧了躺了一天,刚上来看看.-----------------------------1.上面有朋友说到新闻id的问题,我要采集的是类似45E4A79E000915BD.htm的不规则文件名,所以从id入手估计不可行了.这个和chinmo的看法是一样的.然后说到保存url进行比较,这个我目前也是这样做,就是太影响效率了.而且数据越多越慢,这个好像不太可行.2.自动执行php这个我还是不明白,我目前的想法是在本地机子写一个批处理文件,然后定时执行,不过这个好像也是下策吧.3.效率问题,因为本人是菜鸟水平,对多线程多服务器之类的做法还不是很明.不知道有无老鸟给指个方向. 我今天刚好写了个采集的.不过和你的不太相同..我是用自己的数据去查别人的数据,再采集的..最重要是找到规律就行了.比如生成HTML一般都是文件名有规律.如果是ID的话,也会有规律的. dada20042030 你实现的是不是类似搜索google,然后采集的功能呢? php限制IP和IP段的代码 mysql_query为什么是error 制作图片的问题 端午快樂 遲到的祝福 此为简单问题 菜单怎么做? 自动换行的问题,求教! php中如何检测string的charset? php如何让cookie过晚上24点即自动清除? PHP 只允许指定域名访问的代码 想弄个拉下线的积分系统,会的进..急求!!! setcookie前echo
2. 1) 服务增加计划任务 2) 用户触发
3. 多开几个同是执行. ^_^
如果Id是有规则的,每次保存时,保存最后的一个id,下次采集时判断,大于这个就集止!
如果没有,只能和上一次采集的对比!
2、自动不知道!
查一下自动执行pHP3、效率要先提源码再采集!这取决全网络;第二是保存内地再提取,这取决于网络和程序架构!
那么他的文件命名是有规律的吧?比如以日期为命名的,那可以比较大小啊!
-----------------------------
1.上面有朋友说到新闻id的问题,我要采集的是类似45E4A79E000915BD.htm的不规则文件名,所以从id入手估计不可行了.这个和chinmo的看法是一样的.然后说到保存url进行比较,这个我目前也是这样做,就是太影响效率了.而且数据越多越慢,这个好像不太可行.
2.自动执行php这个我还是不明白,我目前的想法是在本地机子写一个批处理文件,然后定时执行,不过这个好像也是下策吧.
3.效率问题,因为本人是菜鸟水平,对多线程多服务器之类的做法还不是很明.不知道有无老鸟给指个方向.