本人是菜鸟,C#懂得可怜,学校要做一个C#版或者Java版的网络爬虫
目标是捕获一个网站里面的用户提出来的问题与回答,
一列一列的爬下来,存入自己的数据库
各位大侠们帮帮忙 对你们说小菜一碟!!!~_~
目标是捕获一个网站里面的用户提出来的问题与回答,
一列一列的爬下来,存入自己的数据库
各位大侠们帮帮忙 对你们说小菜一碟!!!~_~
解决方案 »
- 在用System.Management.ManagementClass取出的CPU信息中的SystemName是代表什么意思?
- 在DateGridView中显示查找结果
- 控制播放器问题
- 求助无效参数问题
- 存储过程指定的参数过多的问题如何解决?
- 请问common language services error这个错误是什么意思?
- string与String 有什么区别啊??
- 40分求画网格线,如QQ表情里面中间的那些网格线如何画呢?
- 都说程序员太苦了,薪水又底,现在在一小城行政部门,本来打算做程序员的?????
- 数据库CoName字段有重复值,怎么只在DropDownList里不重复显示相同值?
- wcf 远程服务器返回了意外响应: (400) Bad Request。
- C# serialport循环读写多个三菱fx系列plc
HttpWebResponse myHttpWebResponse = (HttpWebResponse)myHttpWebRequest.GetResponse();
stream = myHttpWebResponse.GetResponseStream();
然后你自己分析一下内容就搞定了
<asp:TextBox ID="TextBox1" runat="server" Width="481px"></asp:TextBox>
<asp:Button ID="Button1" runat="server" OnClick="Button1_Click" Text="提取" />
<br />
<asp:TextBox ID="TextBox2" runat="server" Height="304px" TextMode="MultiLine" Width="524px"></asp:TextBox>
</div> //后台:protected void Button1_Click(object sender, EventArgs e)
{
TextBox2.Text = "";
string web_url = this.TextBox1.Text string all_code = "";
HttpWebRequest all_codeRequest = (HttpWebRequest)WebRequest.Create(web_url);
WebResponse all_codeResponse = all_codeRequest.GetResponse();
StreamReader the_Reader = new StreamReader(all_codeResponse.GetResponseStream());
all_code = the_Reader.ReadToEnd();
the_Reader.Close();
ArrayList my_list = new ArrayList();
string p = @"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";
Regex re = new Regex(p, RegexOptions.IgnoreCase);
MatchCollection mc = re.Matches(all_code); for (int i = 0; i <= mc.Count - 1; i++)
{
bool _foo = false;
string name = mc[i].ToString();
foreach (string list in my_list)
{
if (name == list)
{
_foo = true;
break;
}
}//过滤 if (!_foo)
{
TextBox2.Text += name + "\n";
}
}
}
http://blog.csdn.net/wangkun9999/archive/2007/05/02/1594496.aspx
http://www.codeproject.com/cs/internet/Crawler.asp另外,爬虫抓下来的东西要进行分析是必然的了,但c#中好像没有HTML解析器,特别是对那种不太规范的HTML,这里是一些c#解析HTML的资料。
http://www.codeproject.com/csharp/html2xhtmlcleaner.asp
http://www.pcxy.net/Article/netprogramme/xml/Article_36767.html
http://www.cnblogs.com/dragon/archive/2006/12/06/174946.html