怎么编写程序来采集网页的文章呢?大神请指教 采集文章.net C#源码 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 Console.WriteLine("http://www.admin5.com/" + co[i].Value); string contenthtml = gethtml("http://www.admin5.com/" + co[i].Value, Encoding.Default); 这2句中 co[i].Value已含有前面的网址,不要了,Console.WriteLine( co[i].Value); string contenthtml = gethtml( co[i].Value, Encoding.GetEncoding("UTF-8"));后面的编码都修改为Encoding.GetEncoding("UTF-8"),不然为乱码了。正则还要完善一下,抓取的 还有<p></p>之类的 加几句替换:基本上就可以了 string title = cotitlt[0].Value; string content = cocontent[0].Value; content = Regex.Replace(content, "<.*?>", ""); content = content.Replace("”", ""); content = content.Replace(" ", ""); content = content.Replace("“", ""); Console.WriteLine("保存数据..."); 你在这句设个断点,单步调试就能发现你的网址重复了: Console.WriteLine("http://www.admin5.com/" + co[i].Value);出现了"http://www.admin5.com/"http://www.admin5.com/ 这样了,所以去了前面的网址就可以了所以你就打不开这个网页了 在 string content = cocontent[0].Value;后面加上这几句就OK了,就取得文本了 content = Regex.Replace(content, "<.*?>", ""); content = content.Replace("”", ""); content = content.Replace(" ", ""); content = content.Replace("“", ""); 关于合成图片之后内存释放问题,在线等 自定义控件的属性设置问题 关于粘贴问题! 在英文机器上开发的系统,在英文机器上运行时,显示界面都有很大的变化 dataGridView1如何双击当前行获取当前行数据? 在datagrid中某单元格的数据超长后如何设置为自动换行显示,谢谢回答!! 怎么屏蔽button对回车的响应 EF 数据库链接 做过RFID防伪系统的请进 给gridControl中的gridView的最后一列添加按钮 c#字符串格式化 c# 谁有加减乘除括号算法
string contenthtml = gethtml("http://www.admin5.com/" + co[i].Value, Encoding.Default);
这2句中 co[i].Value已含有前面的网址,不要了,
Console.WriteLine( co[i].Value);
string contenthtml = gethtml( co[i].Value, Encoding.GetEncoding("UTF-8"));
后面的编码都修改为Encoding.GetEncoding("UTF-8"),不然为乱码了。
正则还要完善一下,抓取的 还有<p></p>之类的
string title = cotitlt[0].Value;
string content = cocontent[0].Value;
content = Regex.Replace(content, "<.*?>", "");
content = content.Replace("”", "");
content = content.Replace(" ", "");
content = content.Replace("“", "");
Console.WriteLine("保存数据...");
Console.WriteLine("http://www.admin5.com/" + co[i].Value);
出现了"http://www.admin5.com/"http://www.admin5.com/ 这样了,所以去了前面的网址就可以了
所以你就打不开这个网页了
后面加上这几句就OK了,就取得文本了
content = Regex.Replace(content, "<.*?>", "");
content = content.Replace("”", "");
content = content.Replace(" ", "");
content = content.Replace("“", "");