关于PHP文章采集的3个问题. 1 一般采集都有一个入口.只要入口变了.一般来说就更新了. 如新闻LIST页面.2 自动采集.需要你在服务器端后台定时启用.3 多线程,多服务器. 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 1. 记录采集的URL地址, 存在就说明以前采过2. 1) 服务增加计划任务 2) 用户触发3. 多开几个同是执行. ^_^ 楼主要是能实现这个,可以赶上百度新闻了了!1、如何只采集更新的内容?如果Id是有规则的,每次保存时,保存最后的一个id,下次采集时判断,大于这个就集止!如果没有,只能和上一次采集的对比!2、自动不知道! 查一下自动执行pHP3、效率要先提源码再采集!这取决全网络;第二是保存内地再提取,这取决于网络和程序架构! 如果说新闻这些新闻有个id的话应该可以从这入手,但是没有id你怎么实现? 那么他的文件命名是有规律的吧?比如以日期为命名的,那可以比较大小啊! 感谢各位的意见,今天感冒发烧了躺了一天,刚上来看看.-----------------------------1.上面有朋友说到新闻id的问题,我要采集的是类似45E4A79E000915BD.htm的不规则文件名,所以从id入手估计不可行了.这个和chinmo的看法是一样的.然后说到保存url进行比较,这个我目前也是这样做,就是太影响效率了.而且数据越多越慢,这个好像不太可行.2.自动执行php这个我还是不明白,我目前的想法是在本地机子写一个批处理文件,然后定时执行,不过这个好像也是下策吧.3.效率问题,因为本人是菜鸟水平,对多线程多服务器之类的做法还不是很明.不知道有无老鸟给指个方向. 我今天刚好写了个采集的.不过和你的不太相同..我是用自己的数据去查别人的数据,再采集的..最重要是找到规律就行了.比如生成HTML一般都是文件名有规律.如果是ID的话,也会有规律的. dada20042030 你实现的是不是类似搜索google,然后采集的功能呢? php能否实现服务器端txt文件转epub文件,word转epub文件,pdf转epub文件 php preg_mahch字符截取 为什么mysql以前关键字不冲突,现在却冲突了? 菜鸟问题 请问一个学习的问题 php使用本地smtp服务器发邮件不成功??高手知道啊~ OO + 分布式计算 = 软件架构的方向 简单验证不奏效,如何有效防止留言机器人 关于session的问题 请教关于搜索功能的一个疑部.急.在线等 想弄个拉下线的积分系统,会的进..急求!!! setcookie前echo
2. 1) 服务增加计划任务 2) 用户触发
3. 多开几个同是执行. ^_^
如果Id是有规则的,每次保存时,保存最后的一个id,下次采集时判断,大于这个就集止!
如果没有,只能和上一次采集的对比!
2、自动不知道!
查一下自动执行pHP3、效率要先提源码再采集!这取决全网络;第二是保存内地再提取,这取决于网络和程序架构!
那么他的文件命名是有规律的吧?比如以日期为命名的,那可以比较大小啊!
-----------------------------
1.上面有朋友说到新闻id的问题,我要采集的是类似45E4A79E000915BD.htm的不规则文件名,所以从id入手估计不可行了.这个和chinmo的看法是一样的.然后说到保存url进行比较,这个我目前也是这样做,就是太影响效率了.而且数据越多越慢,这个好像不太可行.
2.自动执行php这个我还是不明白,我目前的想法是在本地机子写一个批处理文件,然后定时执行,不过这个好像也是下策吧.
3.效率问题,因为本人是菜鸟水平,对多线程多服务器之类的做法还不是很明.不知道有无老鸟给指个方向.