C#如何将网页文件转换为纯文本文件保存,并且过滤掉网页代码的内容,只留下文章的内容。 C#如何将网页文件转换为纯文本文件保存,并且过滤掉网页代码的内容,只留下文章的内容。 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 string text="网页内容";MatchCollection mc = Regex.Matches(text, @"(?<=<(?!a)[^>]*>|^)(?!\s+<)[^<>]+(?=<(?!/a)[^>]*>|$)", RegexOptions.IgnoreCase);string result;foreach (Match m in mc){ result+=m.Value;}这个正则应该能满足LZ的要求。。昨晚看到root写的这个正则,收藏了。。 repcontent = Regex.Replace(repcontent,"<script([\\s\\S]+?)</script>","",RegexOptions.IgnoreCase); repcontent = Regex.Replace(repcontent,"<style([\\s\\S]+?)</style>","",RegexOptions.IgnoreCase); repcontent = Regex.Replace(repcontent, "<(.|\n)+?>", "", RegexOptions.IgnoreCase); repcontent = Regex.Replace(repcontent,"(\\s+?)",""); repcontent = repcontent.Replace(" ", "");我是用这种方法来过滤的只保留了,中英文标点 像public</span> <span style="color:blue">static</span> <span style="color:blue">class</span>本来网页上是:public static class但是处理后成了:publicstaticclass 肯定是你自己加了换行符了。。foreach (Match m in mc) { result+=m.Value; //这里不要加换行符,要加也是加空格啊。。} C#编程风格约定 C# 如何改变 窗体 标题栏的 样式 (请用过memcached集群的兄弟解惑)添加或移除memcached时,memcached客户端该怎样处理而不会影响客户端实例中的其它server 把c#代码转换为c++代码.把剩下的分全分了。在线等。。。 菜鸟请教高手们C#的问题 请问该效果是如何实现的? 以下一些问题希望帮忙解答一下~ timespan的问题 急~!c#怎么用代码调用c++ gsoap写的webservice! 概念问题 请问有可以替代WebBrowser的控件么 下一代网络就是以太网吗? (快速 简单 低廉)
string text="网页内容";
MatchCollection mc = Regex.Matches(text, @"(?<=<(?!a)[^>]*>|^)(?!\s+<)[^<>]+(?=<(?!/a)[^>]*>|$)", RegexOptions.IgnoreCase);
string result;
foreach (Match m in mc)
{
result+=m.Value;
}
这个正则应该能满足LZ的要求。。昨晚看到root写的这个正则,收藏了。。
repcontent = Regex.Replace(repcontent,"<style([\\s\\S]+?)</style>","",RegexOptions.IgnoreCase);
repcontent = Regex.Replace(repcontent, "<(.|\n)+?>", "", RegexOptions.IgnoreCase);
repcontent = Regex.Replace(repcontent,"(\\s+?)","");
repcontent = repcontent.Replace(" ", "");我是用这种方法来过滤的
只保留了,中英文标点
像public</span> <span style="color:blue">static</span> <span style="color:blue">class</span>
本来网页上是:public static class但是处理后成了:
public
static
class
肯定是你自己加了换行符了。。
foreach (Match m in mc)
{
result+=m.Value; //这里不要加换行符,要加也是加空格啊。。
}