根据自己的情况自己去写呗。。
file_get_contents + 正则 + database operation

解决方案 »

  1.   

    研究了下火车头,发现起点的小说根本采不过来呀,里面的貌似是用js提取txt,(不知道对否)vip的也是用图片显示
    不知道可有什么办法采集?
      

  2.   

    我看过起点的小说,他的确是由js来调txt的。可以告诉你肯定可以采,因为我见到过好多小说网站都是采集起点的页面。采集器很难写出通用的,除非页面结构比较简单的。建议你还是自己用curl和正则去取吧,以前我在这里发过一个采集器的例子,你可以参考下。
    http://topic.csdn.net/u/20080824/07/0125890f-9a98-4296-ad84-c5c748c17581.html对于起点的这种页面形式,首先要把那个txt的文本地址用正则取出来,然后直接加载读那个txt就可以了。
      

  3.   

    起点的防采集非常好了我绞尽脑汁也没想出办法登陆验证码 ajax