想写个空间,博客自动访问工具。
大概思路如下:
1、在软件上登录自己的空间或者博客之后即可进行搜索。
2、主要搜索路线有两条 1)好友列表 2)最近访客列表。每到达一个空间之后也按照这两条往下搜索,当然,要排除自己。
3、模拟访问,模拟实现人工对对方空间的访问,即在对方的最近访客列表里能出现自己。基本功能就这些,不知道哪位有更详细的思路,参考资料,代码片断或者源代码。多谢了先。

解决方案 »

  1.   

    抓包,看看post哪些数据,模拟请求
      

  2.   

    看看 HttpWebRequest 类, 了解HTTP协议。
      

  3.   

    多谢,正在看webbrowser相关资料。
    搜索那部分有没有什么好的建议啊。
      

  4.   

    搜索部分,就得看 Html 源码,看看这些信息,是哪些Url,是Post还是Get。可以下个 Fiddler 来抓取Http信息,注意Request的Header(cookie,Request body)
      

  5.   

    我明白一点儿了,还是得用到html源代码分析,先从分析自己的那个页面,找到最近访问和好友列表,把这些地址统统加入到一个列表里,然后顺序取出列表中的记录进行访问,然后对访问到的页面就行分析,搜索最近访问和好友列表,加入到列表里,然后顺序取出访问,如此循环。对不?
      

  6.   

    做到html代码搜索部分了,用的正则。下面这句的正则该怎么写谁知道啊。spaceurl:'http://hi.baidu.com/646457303',
      

  7.   

    用webborwers,然后分析web的document。
      

  8.   

    正则表达式能取出js里面的内容吗?我测试的怎么什么都取不到啊。
    js代码如下:我想取spaceurl后面单引号中的网址
    var visiterArr=[
    {
    portrait:'f604636f6d326d756e69747935bc14',
    uname:'com2munity5',
    spaceurl:'http://hi.baidu.com/com2munity5',
    is_friend:'',
    status:'hioffline'
    }
    , {
    portrait:'edc3d0a5b7e7b2ddccc37f0e',
    uname:'啸风草堂',
    spaceurl:'http://hi.baidu.com/啸风草堂',
    is_friend:'',
    status:'hioffline'
    }
    , {
    portrait:'e8173634363435373330336218',
    uname:'646457303',
    spaceurl:'http://hi.baidu.com/646457303',
    is_friend:'',
    status:'hioffline'
    }
    , {
    portrait:'8763393538376572654e1a',
    uname:'9587ere',
    spaceurl:'http://hi.baidu.com/9587ere',
    is_friend:'',
    status:'hioffline'
    }
    , {
    portrait:'7557373835397572754e1a',
    uname:'7859uru',
    spaceurl:'http://hi.baidu.com/7859uru',
    is_friend:'',
    status:'hioffline'
    }
    , {
    portrait:'3e6fd1eeb3a4d4aa3e1a',
    uname:'杨长元',
    spaceurl:'http://hi.baidu.com/杨长元',
    is_friend:'',
    status:'hioffline'
    }
    , {
    portrait:'a0d76d6f6e736f6f6e3179629c14',
    uname:'monsoon1yb',
    spaceurl:'http://hi.baidu.com/monsoon1yb',
    is_friend:'',
    status:'hioffline'
    }
    ];
      

  9.   

    Regex regex = new Regex("(?is)(?<=spaceurl:')([^']*)?(?=')");
    MatchCollection mc = re.Matches("...");
    foreach (Match ma in mc)
    {
        //...
    }
      

  10.   


    非常感谢,经测试发现我获取不到自己空间的源代码,应该是没有把cookie带着的原因。
      

  11.   

    一天都没进展,郁闷。
    我下载了一个浏览器的源码,从浏览器里打开我的空间并登录,但是用HttpWebRequest获取网页源代码的时候是没有权限提示页的代码,怎么才能获取到登录后的页面的源码呢?
      

  12.   

    http://blog.csdn.net/fengyarongaa/article/details/6547799
      

  13.   

    怎么死活都获取不到存储在本地的cookie信息呢,奇怪。