怎么编写程序来采集网页的文章呢？大神请指教

采集文章.net C#源码

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

   Console.WriteLine("http://www.admin5.com/" + co[i].Value);
    string contenthtml = gethtml("http://www.admin5.com/" + co[i].Value, Encoding.Default);
　这２句中 co[i].Value已含有前面的网址，不要了，
Console.WriteLine( co[i].Value);
    string contenthtml = gethtml( co[i].Value, Encoding.GetEncoding("UTF-8"));
后面的编码都修改为Encoding.GetEncoding("UTF-8")，不然为乱码了。
正则还要完善一下，抓取的还有<p></p>之类的
加几句替换：基本上就可以了
　　　　　　 string title = cotitlt[0].Value;
                        string content = cocontent[0].Value;
                        content = Regex.Replace(content, "<.*?>", "");
                        content = content.Replace("”", "");
                        content = content.Replace(" ", "");
                        content = content.Replace("“", "");
                        Console.WriteLine("保存数据...");
你在这句设个断点，单步调试就能发现你的网址重复了：
  Console.WriteLine("http://www.admin5.com/" + co[i].Value);
出现了"http://www.admin5.com/"http://www.admin5.com/ 这样了，所以去了前面的网址就可以了
所以你就打不开这个网页了
在 string content = cocontent[0].Value;
后面加上这几句就ＯＫ了，就取得文本了
                        content = Regex.Replace(content, "<.*?>", "");
                        content = content.Replace("”", "");
                        content = content.Replace(" ", "");
                        content = content.Replace("“", "");