现在有分词后的文本文档,我想实现对分词后的词或词语,进行全部的统计,就是
把如下所示的文档:恐怖 出现n次;袭击,出现m次……我是想对空格和/进行判断,可是空格的判断是应该用ASCII码吗?
具体应该怎么实现呢,还请高手指教,先谢了文档内容如下:
根据/p 截止/v 到/v 7月/t 9日/t 的/u 最新/a 统计/vn 数字/n ,/w 已/d 有/v 49/m 人/n 被/p 确认/v 在/p 伦敦/ns 连环/b 爆炸/vn 事件/n 中/f 死亡/v ,/w 另/r 有/v 25/m 人/n 失踪/v 。/w 《/w 星期日/t 泰晤士报/n 》/w 援引/v 警方/n 的/u 消息/n 说/v ,/w 死亡/v 人数/n 至少/d 还/d 将/d 上升/v 20/m 名/q 。/w 这/r 20/m 名/q 死者/n 可能/v 在/p 国王/n 十字/b 车站/n 与/p 罗/nr 素/nr 广场/n 之间/f 的/u 地下隧道/n 里/f ,/w 他们/r 都/d 是/v 一/m 辆/q 遭/v 袭/v 地铁/n 列车/n 的/u 乘客/n 。/w 目前/t ,/w 救援/vn 人员/n 仍/d 在/p 顶/v 着/u 高温/n 搜寻/v 列车/n 残骸/n 。/w
把如下所示的文档:恐怖 出现n次;袭击,出现m次……我是想对空格和/进行判断,可是空格的判断是应该用ASCII码吗?
具体应该怎么实现呢,还请高手指教,先谢了文档内容如下:
根据/p 截止/v 到/v 7月/t 9日/t 的/u 最新/a 统计/vn 数字/n ,/w 已/d 有/v 49/m 人/n 被/p 确认/v 在/p 伦敦/ns 连环/b 爆炸/vn 事件/n 中/f 死亡/v ,/w 另/r 有/v 25/m 人/n 失踪/v 。/w 《/w 星期日/t 泰晤士报/n 》/w 援引/v 警方/n 的/u 消息/n 说/v ,/w 死亡/v 人数/n 至少/d 还/d 将/d 上升/v 20/m 名/q 。/w 这/r 20/m 名/q 死者/n 可能/v 在/p 国王/n 十字/b 车站/n 与/p 罗/nr 素/nr 广场/n 之间/f 的/u 地下隧道/n 里/f ,/w 他们/r 都/d 是/v 一/m 辆/q 遭/v 袭/v 地铁/n 列车/n 的/u 乘客/n 。/w 目前/t ,/w 救援/vn 人员/n 仍/d 在/p 顶/v 着/u 高温/n 搜寻/v 列车/n 残骸/n 。/w
using System.Text.RegularExpressions;
Regex rgWord = new Regex( "(恐怖)" );
MessageBox.Show( rgWord.Matches( yourTxtContent ).Count.ToString() );
{
string strAll;
using (StreamReader sr = new StreamReader(@"d:\1.txt",System.Text.Encoding.Default))
{
strAll = sr.ReadToEnd();
}
string strWord="";
while (strAll != "")
{
strWord = strAll.Substring(0, strAll.IndexOf('/'));
Regex reg = new Regex(strWord + @"/[a-zA-Z]{1,2}\s+", RegexOptions.IgnoreCase);
int count = reg.Matches(strAll).Count;
strAll = reg.Replace(strAll, ""); Console.WriteLine(strWord +": "+count.ToString());
}
}测了一下,应该可以
高级 /0 搜索 /0
把 /0 百度 /0 设 /0 为 /0 首页 /0 企业 /0 推广 /0 | /0 搜索 /0 风云 /0 榜 /0 | /0 关于 /0 百度 /0 | /0 About /0 Baidu /0 ? /0 2006 /0 Baidu /0 使用 /0 百度 /0 前 /0 必读 /0 京 /0 ICP /0 证 /0 030173 /0 号 /0