给你一个思路,看看行不行:假定用户规则http://www.56.com/h20/u_cmw296103297.html是正确的,那么它可以用一个正则匹配完成。至于要找到所有的56用户,如果是一个一个去试恐怕比较难。我的建议是,从一个或N个现有的用户出发,分析这个用户空间中的友情链接,如果符合上面的正则表示就可以认为这个链接代表了一个56的用户,然后对每个用户在深度方向搜索5-6次,应该是虽不中亦不远矣。
调试欢乐多
2 你们老总叫你取得会员用户ID,肯定是做推广之类的.所以,只有哪些潜在的活动的会员ID才是最有价值的.
如果会员只是注册一下,然后就没有更新了,哪这样的用户ID是没有任何价值的.
所以,你可以获取哪些有潜在活动价值的会员ID.3 综上分析:
潜在价值会员: 经常更新的,最新注册的,人气会员,明星会员,美女会员,当然这之间会有交通的.
潜在价值会员活动场所: 首页,各大版块,排行榜等(这个需要深层分析)
获取方式:
1 有针对性对更新不频繁的对各大版块请求,正则匹配到页面上的会员.
2 定时获取更新频繁的页面,以获取页面上的会员.
4 如何编程,就不在讨论范围之内吧,蜘蛛现在横行呀,呵呵.参考一下.5 给点提示:
http://mm.56.com/index.php?action=vlist&order=date 美女主播 649页,每页12个美女,呵呵,这是一笔比较大的财富吧.
即使拿到用户id,也是一串数字而已,你们老板要的是这串id相关联的数据吧?
还是小心为妙,严重的会背个窃取商业机密的罪名.
这样抓完了 八九不离十的,就怕56.com怒了 把你的ip封了