想要把汉字的首字母提出来,网上搜到下面这个函数,不过让人很郁闷的是很多较为不常用的汉字无法识别,例如饽、窦、鹬...等等。不知道该如何解决。
function getfirstchar($s0){ 
$firstchar_ord=ord(strtoupper($s0{0})); 
if (($firstchar_ord>=65 and $firstchar_ord<=91)or($firstchar_ord>=48 and $firstchar_ord<=57)) return $s0{0}; 
$s0=iconv("UTF-8","gb2312", $s0);
$s=$s0; 
$asc=ord($s{0})*256+ord($s{1})-65536; 
if($asc>=-20319 and $asc<=-20284)return "A"; 
if($asc>=-20283 and $asc<=-19776)return "B"; 
if($asc>=-19775 and $asc<=-19219)return "C"; 
if($asc>=-19218 and $asc<=-18711)return "D"; 
if($asc>=-18710 and $asc<=-18527)return "E"; 
if($asc>=-18526 and $asc<=-18240)return "F"; 
if($asc>=-18239 and $asc<=-17923)return "G"; 
if($asc>=-17922 and $asc<=-17418)return "H"; 
if($asc>=-17417 and $asc<=-16475)return "J"; 
if($asc>=-16474 and $asc<=-16213)return "K"; 
if($asc>=-16212 and $asc<=-15641)return "L"; 
if($asc>=-15640 and $asc<=-15166)return "M"; 
if($asc>=-15165 and $asc<=-14923)return "N"; 
if($asc>=-14922 and $asc<=-14915)return "O"; 
if($asc>=-14914 and $asc<=-14631)return "P"; 
if($asc>=-14630 and $asc<=-14150)return "Q"; 
if($asc>=-14149 and $asc<=-14091)return "R"; 
if($asc>=-14090 and $asc<=-13319)return "S"; 
if($asc>=-13318 and $asc<=-12839)return "T"; 
if($asc>=-12838 and $asc<=-12557)return "W"; 
if($asc>=-12556 and $asc<=-11848)return "X"; 
if($asc>=-11847 and $asc<=-11056)return "Y"; 
if($asc>=-11055 and $asc<=-10247)return "Z"; 

解决方案 »

  1.   

    你的这个表太小了,只覆盖3775个汉字。你可使用这个 http://blog.csdn.net/xuzuning/article/details/5060835
      

  2.   


    谢谢!使用了您的方法,不过在我的网站上首字母抓的很多都不对(独立测试没问题),不知道是不是因为编码的原因,我网站采用的是UTF-8编码,将pinyin_initial.txt存为UTF-8格式了也。
    function getfirstchar($word){
    $word=iconv("UTF-8","gb2312", $word);
    $initial = file_get_contents('pinyin_initial.txt');
    $n = (ord($word[0])-0x81)*0xbf + ord($word[1])-0x40;
    $word = substr($initial, $n, 1);
    return $word;
    }
      

  3.   

    需要是 gbk 编码,utf-8 时对应关系就不对了
    如果不是gbk 的需先转成 gbk