PHP截取HTML字符串

情况：将复制的文章摘要粘贴到textarea编辑器中，提交后显示在页面
1.显示的内容需要根据设置的长度来显示，即截取一部分，文章内容没有达到规定的长度时，不截取，但是以下几点必须满足
2.截取的这部分内容中的html标签不能过滤掉
3.显示的中文时不能因截取了该中文的1个或者2个字节（一个中文占3个字节）而出现乱码情况
4.显示的内容的html标签必须是闭合的，不能因为不是闭合的而显示后，出现布局混乱。最好贴出示例代码，一定结贴给分。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

额，可以给你点思路。
1.mb_substr可以实现中文截取无乱码。
2.wordwrap()函数可以实现对一段text打断，每隔一定字符加入一个特定字符，且不会破坏单词。
3.如果需要html标签的完整。你可以用栈，检测到html标签的时候，先和栈顶元素比较，如果成对，出栈，不成对，入栈。以这个作为截取的依据。
不是很明白你具体是做什么东西！难道是规定字数的文章发布？那就直接用js在输入的时候控制字数就行！如果你是想提取文章一部分做简介的话！我觉得简介部分一般不用包含html标签的！可以直接用strip_tags()函数去掉html标签！再mb_substr()截取你要的字数！
我认为你可以通过借助js结合smarty进行，smarty中有个escape:"html"如{$content|escape:"html"|truncate:10}，或者通过ajax向后台请求来实现过滤标签，不然这个很费事
用正则匹配所有标签与内容出来。组合截取内容长度再补回标签。
一般都是过滤掉html标签再截取吧。不知楼主为何要这样。
最近在做discuz的二次开发给你个discuz的function cutstr($string, $length, $dot = ' ...') {
if(strlen($string) <= $length) {
return $string;
} $pre = chr(1);
$end = chr(1);
$string = str_replace(array('&', '"', '<', '>'), array($pre.'&'.$end, $pre.'"'.$end, $pre.'<'.$end, $pre.'>'.$end), $string); $strcut = ''; $n = $tn = $noc = 0;
while($n < strlen($string)) { $t = ord($string[$n]);
if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
$tn = 1; $n++; $noc++;
} elseif(194 <= $t && $t <= 223) {
$tn = 2; $n += 2; $noc += 2;
} elseif(224 <= $t && $t <= 239) {
$tn = 3; $n += 3; $noc += 2;
} elseif(240 <= $t && $t <= 247) {
$tn = 4; $n += 4; $noc += 2;
} elseif(248 <= $t && $t <= 251) {
$tn = 5; $n += 5; $noc += 2;
} elseif($t == 252 || $t == 253) {
$tn = 6; $n += 6; $noc += 2;
} else {
$n++;
} if($noc >= $length) {
break;
} }
if($noc > $length) {
$n -= $tn;
} $strcut = substr($string, 0, $n); $strcut = str_replace(array($pre.'&'.$end, $pre.'"'.$end, $pre.'<'.$end, $pre.'>'.$end), array('&', '"', '<', '>'), $strcut); $pos = strrpos($strcut, chr(1));
if($pos !== false) {
$strcut = substr($strcut,0,$pos);
}
return $strcut.$dot;
}
从0开始截取的
function substr_ignore_tags($str, $len = 0){
function strRepeat($str, $frequency){
if(!$frequency){
return ;
}
for($i = 0; $i < $frequency; $i++){
$str .= $str;
}
return $str;
} $str = preg_replace('#(</?[^>]+>)#', chr(9) . '\1', $str);
$arr = explode(chr(9), $str);
if(count($arr) == 1){
return $str;
}

$str = '';
while(strlen(strip_tags($str)) < $len){
$_str = array_shift($arr);
$strLen = strlen(strip_tags($str));
$_strLen = strlen(strip_tags($_str));
if($strLen + $_strLen >= $len){
$getLen = $len - $strLen;
preg_match_all('#(</?[^>]+>)#', $_str, $match);
if(!isset($match[0][0])){
return $_str;
}
$endTag = $match[0][0];
$str .= $endTag . substr(strip_tags($_str), 0, $getLen);
break;
}else{
$str .= $_str;
}
} preg_match_all('#(</?[^>]+>)#', $str, $match);
$allTags = array_reverse($match[0]); $_allTags = array();
foreach($allTags as $tag){
if(strpos($tag, '</') !== false){
preg_match('#</([^>]+)>#', $tag, $_tag);
if(isset($_allTags[trim($_tag[1])]['n_num'])){
$_allTags[trim($_tag[1])]['n_num'] += 1;
}else{
$_allTags[trim($_tag[1])] = array('s_num' => 0, 'n_num' => 1);
}
}else{
preg_match('#<([^ ]+)([^>]*)>#', $tag, $_tag);
if(isset($_allTags[trim($_tag[1])]['s_num'])){
$_allTags[trim($_tag[1])]['s_num'] += 1;
}else{
$_allTags[trim($_tag[1])] = array('s_num' => 1, 'n_num' => 0);
}
}
} foreach($_allTags as $tag => $info){
$str .= strRepeat('</' . $tag . '>', $info['n_num'] - $info['s_num']);
} return $str;
}$str = 'aaaaa<span style="color: red">bbbbb<b>ccccc</b>ddddd</span>eeeee';
$len = 6;
echo substr_ignore_tags($str, $len);
这个还是比较简单的
1:先用正则去掉所有html标签
2:判断余下的子符数是否大于指定数,若大于
3:采用mb_substring 来切取指定的数,同时判断截取的最后一个字符在前面出现在过多少
4:采用mb_substring 切取原字符
5:采用tidy 来修复截断的html 标签
这个不是前阵子我们讨论过的一道腾讯的面试题嘛楼主看这里，有很多人都给出了代码，你看看哪个符合你的需要：
http://topic.csdn.net/u/20100816/02/f954078b-2e2b-440e-a063-ef8beb9d8370.html?57297
http://hi.baidu.com/lael80/blog/item/669ebe1e50f635134134172c.html
PHP截取字符串的函数，能正确截取包含HTML标签的字符，基本能修正中英文字宽不相同的问题
http://it.6-da.com/Default-php.aspx