给你一个思路,看看行不行:假定用户规则http://www.56.com/h20/u_cmw296103297.html是正确的,那么它可以用一个正则匹配完成。至于要找到所有的56用户,如果是一个一个去试恐怕比较难。我的建议是,从一个或N个现有的用户出发,分析这个用户空间中的友情链接,如果符合上面的正则表示就可以认为这个链接代表了一个56的用户,然后对每个用户在深度方向搜索5-6次,应该是虽不中亦不远矣。

解决方案 »

  1.   

    1 56.com肯定不会傻到留个接口,取其的用户ID,所以想获得所有的用户ID是不现实的.
    2 你们老总叫你取得会员用户ID,肯定是做推广之类的.所以,只有哪些潜在的活动的会员ID才是最有价值的.
      如果会员只是注册一下,然后就没有更新了,哪这样的用户ID是没有任何价值的.
      所以,你可以获取哪些有潜在活动价值的会员ID.3 综上分析:
      潜在价值会员: 经常更新的,最新注册的,人气会员,明星会员,美女会员,当然这之间会有交通的.
      潜在价值会员活动场所: 首页,各大版块,排行榜等(这个需要深层分析)
      获取方式: 
        1 有针对性对更新不频繁的对各大版块请求,正则匹配到页面上的会员.
        2 定时获取更新频繁的页面,以获取页面上的会员.
      
    4 如何编程,就不在讨论范围之内吧,蜘蛛现在横行呀,呵呵.参考一下.5 给点提示:
      http://mm.56.com/index.php?action=vlist&order=date 美女主播 649页,每页12个美女,呵呵,这是一笔比较大的财富吧. 
      
      

  2.   

    谢谢大家帮忙分析了,唉,实在不行我就辞职了,没有办法,另外特别谢谢jakey的分析,分析的非常有道理!
      

  3.   

    我的办法是写一个循环 固定一个最小值,然后固定一个最大值,然后开始循环,循环的过程里,根据用户的ID,使用curl抓取,使用抓取过来的内容,去匹配一个存在的字符串,如果能匹配上,说明此用户存在,那么可以写进数据库,否则的话跳出这次循环,这样就可以一个一个的将用户的真实ID弄过来了
      

  4.   

    10L和16Lde做法都不可取。这样做没有必要,还给老板留把柄。最简单的一个情况,如果老板也注册了一个,而你的列表里没你老板的ID,事情马上就穿帮了呀。做事情,能做不能做都要说出来。我最恨的就是你说你能做,做的时候也不提出你需要帮忙的地方,最后提交的东西牛头不对马嘴。工作态度还是最重要的。
      

  5.   

    别人数据库里的用户数据就是人家网站的财富.
    即使拿到用户id,也是一串数字而已,你们老板要的是这串id相关联的数据吧?
    还是小心为妙,严重的会背个窃取商业机密的罪名.
      

  6.   

    应该还是有办法的,随便找一个用户的主页,一般都有最近访客,把最近访客扒下来 正则一下,然后写道数据库中 顺便可以扒下一个了,和spider没有太大的区别,
    这样抓完了 八九不离十的,就怕56.com怒了 把你的ip封了