请问,如何统计朝鲜语的单词个数(不是字符数)?跟word里的统计字数一样,可在java中使用。谢谢!

解决方案 »

  1.   

    朝鲜文字的unicode编码范围是:
    \u1100-\u11FF,对应的10进制范围是:4352-4607
    String str="";
    int n=str.length();
    int count=0;
    for(int i=0;i<n;i++)
    {
      int c=str.charAt(i);
     if(c>=4352 && c<=4607)//在朝鲜文字的编码范围内
           count++;或者:
      Character c=str.charAt(i);
    if(c.toString().matches("^[\u1100-\u11FF]$"))//匹配朝鲜文字
       count++;
    }
      

  2.   

    二楼的好像只是算了韩文字母部分,我现在不太知道什么是朝鲜语的单词,在word中是如何计算的?各字符编码的unicode范围可以参考这里:http://blog.oasisfeng.com/2006/10/19/full-cjk-unicode-range/