抓取网页数据提交到库

本帖最后由 pkw1989 于 2009-08-02 15:15:04 编辑

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

用PHP就可以实现只是比较复杂点首先是用file函数将远端的网页读取到缓存中然后用一系列的逻辑操作对该字符串进行筛选
从而提取出数据保存在数据库中
然后用javascript程序每隔5到10秒刷新一次页面他们页面无规则就比较难办了但只要他们也是用的后台添加那就一定可以采集
最后的排序就更简单这里就不多说了关键在于如何分析关键字将数据从杂乱的代码中提取出来
这不就是采集么？？？拆开一个开源的网站系统？？看看别人的怎么样子的抄一下就是了哦，呵呵，  比如我的www.smallnovel.com站内就有一个采集的，但是非常不好意思的是这技术活我不懂
先通过file操作函数活动远程文件内容，通过正则表达式去除html不必要的标签，然后分析内容。数据变化一定是有规律的，例如最后一次更新的内容的名字等，然后每5分重新抓取一次，判断上次最后一个名字的位置。
$fp=fopen("url","r");
   while(!feof($fp))
   {
      $str=fgets($fp);
      $str="<xmp>$str</xmp>";
      echo $str;
    }

   这样就可以得到你要抓的网页带标签的html内容，然后解析该文件，只要是程序写出来的网页，那无论数据怎么变，结构还是有规律的。
如果真的什么规律都没有，三家网站认识不？去找他们谈合作吧，建web service。
你这个问题也是我要问的。我用的是 .net到现在还没有答案呢不知道楼主那有答案了吗？可以告诉我吗我那个是抓取一个网页的信息到自己的数据库，可是我就是不知道怎么添加到自己的库中啊！