现在有分词后的文本文档,我想实现对分词后的词或词语,进行全部的统计,就是
把如下所示的文档:恐怖  出现n次;袭击,出现m次……我是想对空格和/进行判断,可是空格的判断是应该用ASCII码吗?
具体应该怎么实现呢,还请高手指教,先谢了文档内容如下:
根据/p  截止/v  到/v  7月/t  9日/t  的/u  最新/a  统计/vn  数字/n  ,/w  已/d  有/v  49/m  人/n  被/p  确认/v  在/p  伦敦/ns  连环/b  爆炸/vn  事件/n  中/f  死亡/v  ,/w  另/r  有/v  25/m  人/n  失踪/v  。/w  《/w  星期日/t  泰晤士报/n  》/w  援引/v  警方/n  的/u  消息/n  说/v  ,/w  死亡/v  人数/n  至少/d  还/d  将/d  上升/v  20/m  名/q  。/w  这/r  20/m  名/q  死者/n  可能/v  在/p  国王/n  十字/b  车站/n  与/p  罗/nr  素/nr  广场/n  之间/f  的/u  地下隧道/n  里/f  ,/w  他们/r  都/d  是/v  一/m  辆/q  遭/v  袭/v  地铁/n  列车/n  的/u  乘客/n  。/w  目前/t  ,/w  救援/vn  人员/n  仍/d  在/p  顶/v  着/u  高温/n  搜寻/v  列车/n  残骸/n  。/w

解决方案 »

  1.   

    建议你用Regex,例如:
    using System.Text.RegularExpressions;
    Regex rgWord = new Regex( "(恐怖)" );
    MessageBox.Show( rgWord.Matches( yourTxtContent ).Count.ToString() );
      

  2.   

    public static void GetWordCount()
            {
                string strAll;
                using (StreamReader sr = new StreamReader(@"d:\1.txt",System.Text.Encoding.Default))
                {
                    strAll = sr.ReadToEnd();
                }
                
                string strWord="";
                            while (strAll != "")
                {
                    strWord = strAll.Substring(0, strAll.IndexOf('/'));
                    Regex reg = new Regex(strWord + @"/[a-zA-Z]{1,2}\s+", RegexOptions.IgnoreCase);
                    int count = reg.Matches(strAll).Count;
                    strAll = reg.Replace(strAll, "");                Console.WriteLine(strWord +":  "+count.ToString());
                }
            }测了一下,应该可以
      

  3.   

    如果文档内容是下面这样,Regex reg = new Regex(strWord + @"/[a-zA-Z]{1,2}\s+", RegexOptions.IgnoreCase);这句对应的正则表达式应该怎么写?资 /0 讯 /0 网 /0 页 /0 贴 /0 吧 /0 知 /0 道 /0 MP /0 3 /0  图 /0 片 /0 更 /0 多 /0 >> /0    搜索 /0 帮助 /0 
    高级 /0 搜索 /0 
     把 /0 百度 /0 设 /0 为 /0 首页 /0 企业 /0 推广 /0 | /0  搜索 /0 风云 /0 榜 /0 | /0  关于 /0 百度 /0 | /0  About /0  Baidu /0 ? /0 2006 /0  Baidu /0  使用 /0 百度 /0 前 /0 必读 /0 京 /0 ICP /0 证 /0 030173 /0 号 /0