C#版网络爬虫

本人是菜鸟，C#懂得可怜，学校要做一个C#版或者Java版的网络爬虫
目标是捕获一个网站里面的用户提出来的问题与回答，
一列一列的爬下来，存入自己的数据库
各位大侠们帮帮忙对你们说小菜一碟！！！~_~

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

lz做出来就是菜牛了~哈哈~lz找点网页抓取源码
这个就是从入口地址拿源码，根据源码做你要做的事，之后用正则从此源码中提取url。循环继续
不论你如何爬，总是有规则的。最简单的办法就是用webbrower，写好抓取步骤，不过前提是你必须懂得基本web程序
                        HttpWebRequest myHttpWebRequest = (HttpWebRequest)WebRequest.Create(url);
                                           HttpWebResponse myHttpWebResponse = (HttpWebResponse)myHttpWebRequest.GetResponse();
                                       stream = myHttpWebResponse.GetResponseStream();
然后你自己分析一下内容就搞定了
参考：提取网页全部链接//前台：<div>
        <asp:TextBox ID="TextBox1" runat="server" Width="481px"></asp:TextBox>
        <asp:Button ID="Button1" runat="server" OnClick="Button1_Click" Text="提取" />
        <br />
        <asp:TextBox ID="TextBox2" runat="server" Height="304px" TextMode="MultiLine" Width="524px"></asp:TextBox>
    </div> //后台：protected void Button1_Click(object sender, EventArgs e)
    {
        TextBox2.Text = "";
        string web_url = this.TextBox1.Text        string all_code = "";
        HttpWebRequest all_codeRequest = (HttpWebRequest)WebRequest.Create(web_url);
        WebResponse all_codeResponse = all_codeRequest.GetResponse();
        StreamReader the_Reader = new StreamReader(all_codeResponse.GetResponseStream());
        all_code = the_Reader.ReadToEnd();
        the_Reader.Close();
        ArrayList my_list = new ArrayList();
        string p = @"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";
        Regex re = new Regex(p, RegexOptions.IgnoreCase);
        MatchCollection mc = re.Matches(all_code);        for (int i = 0; i <= mc.Count - 1; i++)
        {
            bool _foo = false;
            string name = mc[i].ToString();
            foreach (string list in my_list)
            {
                if (name == list)
                {
                    _foo = true;
                    break;
                }
            }//过滤            if (!_foo)
            {
                TextBox2.Text += name + "\n";
            }
        }
    }
小得不能再小的小程序。你要先了解http原理，懂得用一种或者两种http调试工具来分析http消息数据，在稍微懂点正则用法（但是可抄袭的代码确实很多），看上去没什么技术要求。
下面链接就是一个c#写的网络爬虫，上面是翻译版，下面是英文原版
http://blog.csdn.net/wangkun9999/archive/2007/05/02/1594496.aspx
http://www.codeproject.com/cs/internet/Crawler.asp另外，爬虫抓下来的东西要进行分析是必然的了，但c#中好像没有HTML解析器，特别是对那种不太规范的HTML，这里是一些c#解析HTML的资料。
http://www.codeproject.com/csharp/html2xhtmlcleaner.asp
http://www.pcxy.net/Article/netprogramme/xml/Article_36767.html
http://www.cnblogs.com/dragon/archive/2006/12/06/174946.html