最近公司领导叫我写采集程序,晕倒还没写好,今天又来个任务。。就是给我一个新浪博客,我我用小偷查询其级别,研究了一上午也没找到接口,唉,大家有什么办法没有啊?

解决方案 »

  1.   


    CURL 模拟一下取数据就OK了啊,然后正则,入库,搞定
      

  2.   

    取网页,再取内容!
    采集是搞 WEB的基本功了!采集好采,关链是解析!有字串取的,有正则的,有dom的!还有其他算法的(文本检索)!有get的,有POST的,有模拟浏览器的!高级的直接http!
      

  3.   

    我直接file_get_contents,然后用正则...是不是低级了点?
      

  4.   

    瞧了一眼,应该能做到:1、自己实现一下parseInt的功能,把用户名转换成16进制的代码
    2、获取http://hits.blog.sina.com.cn/hits?act=3&uid=<上面的16进制码>,你需要设定referer,否则新浪会禁止你取这个页面
    3、上面的页面里面有页面浏览数,然后按照这个区间得到级别:
    0,50,100,150,200,300,500,800,1500,3000,5000,10000,15000,25000,40000,70000,100000,150000,200000,500000,1000000,2000000,5000000,10000000,20000000,50000000,100000000,150000000,200000000,250000000,300000000,350000000,400000000,450000000,500000000,550000000
    比如,浏览数是234,级别应该是32(还是31啊?)还没找到parseInt在哪,哪位有闲心找找。
      

  5.   

    貌似parseInt是把整数变成16进制,javascript不熟,多包涵。获得用户ID的方法哪位有空看吧,累了。:D