有一段文章,怎么提取出现最多的前5个词 :
现实生活里,在商品交易过程中因为欺诈、不诚信而产生的交易纠纷屡见不鲜,对于消费者来说,这是一种信息不对称造成的买卖不公。潘辛平表示:“支付宝这种第三方支付公司正在做的其实是商品交易方面的信用建设,它是从金融交易向商品交易的信用延伸,相比现有存在的信用体系而言,它是一种创新性的有效补充。”
用PHP提取效率还是在SQL里效率?

解决方案 »

  1.   

    还是建议 LZ 多 google  上面资料多
      

  2.   

    这个要写算法  现成的也有 http://www.dedecms.com/html/chanpinxiazai/20061229/3.html
      

  3.   

    什么是中文分词?  众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我是 一个 学生。 
      

  4.   

    SQL做不到,可以使用Zend_Search_Lucene提取关键词
    http://framework.zend.com/manual/zh/zend.search.lucene.html
      

  5.   

    实现的架构的话, 要弄个server, 前台可以由php写, server接受一个请求, 然后调用后台的c++或java或python等的binary专门负责切词, 返回结果传给前台的php再处理下面的事情
      

  6.   


    也就是说php不能处理  .. ?
      

  7.   

    研究过但没做过
    PHP可以处理
    只要你会算法即可,切词(一次,二字,三字,四字,····)位移(1,2,3 ····),统计词频第二种,将有语议的词存入数据库,供以后用第三种:根据库里的语议词典查询词频
    处理方法千千万,找一种适合你的
      

  8.   

    str_split 这个用不了中文切词,谁知那有中文切词的函数 
      

  9.   

    我把代码帖一下$str='在在在在大元帅是xcv .,埋地地一好好发发';
    $arr=str_split($str,5);
    sort($arr);
    $a=array_count_values($arr);
    arsort($a);
    print_r($a);存在问题一 用str_split切词中文有乱码 用算法可以解决二 切词不人性化,这个最要命,解决方法只能是自定义一个关键词库了