写的两个函数,对比提交的文本段落里面重复的有无,发现一些问题:
(1)in_array()检测中文有的时候会有问题,明明存在却提示不存在,长文本的时候概率更高
(2)有时候短段落重复3~4次是允许的,但是如果用similar_text作对比就导致只要有一次重复就拒绝用户提交了。如何改进才更好
(3)还有没有更好的方法,求~function hasSimilarText($string)
{
    $lineArr = explode("\n",$string);
    $arrStr = $arrLen = array();
    foreach($lineArr as $k => $v)
    {
        $arrLen[] = strlen($v);
        $arrStr[] = $v;
    }    foreach($arrStr as $k1 => $v1)
    {
        foreach($arrStr as $k2 => $v2)
        {
            if($k1 == $k2) continue;
            if($arrLen[$k2] < 30 || abs($arrLen[$k2] - $arrLen[$k1]) > 100) continue;
            similar_text($v1, $v2, $pct);
            if($pct > 90) return true;
        }
    }
    return false;
}
/* 重复段落检测 */
function hasRepeatLine($string)
{
    $string = str_replace(array("\t"," ","@","#","。",",",".",","),'',$string);
    //$string = str_replace("\r","\n",$string);
    $lineArr = explode("\n",$string);
    $countShort = $countMiddle = $countLong = 0;
    $arr = array();    foreach($lineArr as $lineString)
    {
        $length = strlen( $lineString );
        if($length < 1) continue;
        if(in_array($lineString,$arr))
        {
            if($length < 13)
            {
                $countShort++;
                if($countShort > 4) return true;//5次
            } elseif($length>12 && $length < 51) {
                $countMiddle++;
                if($countMiddle > 3) return true; //4次
            } elseif($length>50 && $length < 101) {
                $countLong++;
                if($countLong > 2) return true; //3次
            } else {
                return true;
            }
        }
        $arr[] = $lineString;
    }
    return false;
}

解决方案 »

  1.   

    1 段落是以什么来界定的?行?还是用空行?如:
    12345
    123123
    dsdsd12312as
    dasdsad1
    dasdsad
    算两个段落?2 重复是以何种概念来界定的?完全匹配?相似度大于xx%?看你用了similar_text,应该是计算相似度的。
    3 不连续的重复算不算重复?
      

  2.   

    因为有的段落文字确实是很短,而且重复一两次也没关系的,但是有的段落太长就不能重复那么多次。这个限定了只要重复一次就不行。另外测试的对于中文有问题,原先也打算用这个后来发现错杀率太高了。
    自己写了另外一个。similar_text