PHP截取HTML字符串

tian_he_wang 2011-11-07 03:52:05
情况:将复制的文章摘要粘贴到textarea编辑器中,提交后显示在页面
1.显示的内容需要根据设置的长度来显示,即截取一部分,文章内容没有达到规定的长度时,不截取,但是以下几点必须满足
2.截取的这部分内容中的html标签不能过滤掉
3.显示的中文时不能因截取了该中文的1个或者2个字节(一个中文占3个字节)而出现乱码情况
4.显示的内容的html标签必须是闭合的,不能因为不是闭合的而显示后,出现布局混乱。

最好贴出示例代码,一定结贴给分。
...全文
822 13 打赏 收藏 转发到动态 举报
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
z109876543210 2011-11-08
  • 打赏
  • 举报
回复
http://hi.baidu.com/lael80/blog/item/669ebe1e50f635134134172c.html
PHP截取字符串的函数,能正确截取包含HTML标签的字符,基本能修正中英文字宽不相同的问题
q21w32e43123 2011-11-08
  • 打赏
  • 举报
回复
helloyou0 2011-11-08
  • 打赏
  • 举报
回复
[Quote=引用 9 楼 wxq41007982 的回复:]

这个还是比较简单的
1:先用正则去掉所有html标签
2:判断余下的子符数是否大于指定数,若大于
3:采用mb_substring 来切取指定的数,同时判断截取的最后一个字符在前面出现在过多少
4:采用mb_substring 切取原字符
5:采用tidy 来修复截断的html 标签
[/Quote]

+1
ci1699 2011-11-07
  • 打赏
  • 举报
回复
这个是纯截取吧。满足不了楼主啊。

[Quote=引用 6 楼 heyli 的回复:]

最近在做discuz的二次开发 给你个discuz的
PHP code

function cutstr($string, $length, $dot = ' ...') {
if(strlen($string) <= $length) {
return $string;
}

$pre = chr(1);
$end = chr(1);
……
[/Quote]
heyli 2011-11-07
  • 打赏
  • 举报
回复
最近在做discuz的二次开发 给你个discuz的

function cutstr($string, $length, $dot = ' ...') {
if(strlen($string) <= $length) {
return $string;
}

$pre = chr(1);
$end = chr(1);
$string = str_replace(array('&', '"', '<', '>'), array($pre.'&'.$end, $pre.'"'.$end, $pre.'<'.$end, $pre.'>'.$end), $string);

$strcut = '';

$n = $tn = $noc = 0;
while($n < strlen($string)) {

$t = ord($string[$n]);
if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
$tn = 1; $n++; $noc++;
} elseif(194 <= $t && $t <= 223) {
$tn = 2; $n += 2; $noc += 2;
} elseif(224 <= $t && $t <= 239) {
$tn = 3; $n += 3; $noc += 2;
} elseif(240 <= $t && $t <= 247) {
$tn = 4; $n += 4; $noc += 2;
} elseif(248 <= $t && $t <= 251) {
$tn = 5; $n += 5; $noc += 2;
} elseif($t == 252 || $t == 253) {
$tn = 6; $n += 6; $noc += 2;
} else {
$n++;
}

if($noc >= $length) {
break;
}

}
if($noc > $length) {
$n -= $tn;
}

$strcut = substr($string, 0, $n);



$strcut = str_replace(array($pre.'&'.$end, $pre.'"'.$end, $pre.'<'.$end, $pre.'>'.$end), array('&', '"', '<', '>'), $strcut);

$pos = strrpos($strcut, chr(1));
if($pos !== false) {
$strcut = substr($strcut,0,$pos);
}
return $strcut.$dot;
}
ci1699 2011-11-07
  • 打赏
  • 举报
回复
用正则匹配所有标签与内容出来。

组合截取内容长度再补回标签。


一般都是过滤掉html标签再截取吧。

不知楼主为何要这样。

kyzy_yy_pm 2011-11-07
  • 打赏
  • 举报
回复
我认为你可以通过借助js结合smarty进行,smarty中有个escape:"html"如{$content|escape:"html"|truncate:10},或者通过ajax向后台请求来实现过滤标签,不然这个很费事
少装点怪 2011-11-07
  • 打赏
  • 举报
回复
不是很明白你具体是做什么东西!难道是规定字数的文章发布? 那就直接用js在输入的时候控制字数就行!如果你是想提取文章一部分做简介的话!我觉得简介部分一般不用包含html标签的!可以直接用strip_tags()函数去掉html标签!再mb_substr()截取你要的字数!
ohmygirl 2011-11-07
  • 打赏
  • 举报
回复
额,可以给你点思路。
1.mb_substr可以实现中文截取无乱码。
2.wordwrap()函数可以实现对一段text打断,每隔一定字符加入一个特定字符,且不会破坏单词。
3.如果需要html标签的完整。你可以用栈,检测到html标签的时候,先和栈顶元素比较,如果成对,出栈,不成对,入栈。以这个作为截取的依据。
an9ryfr09 2011-11-07
  • 打赏
  • 举报
回复
这个不是前阵子我们讨论过的一道腾讯的面试题嘛

楼主看这里,有很多人都给出了代码,你看看哪个符合你的需要:
http://topic.csdn.net/u/20100816/02/f954078b-2e2b-440e-a063-ef8beb9d8370.html?57297
wxq41007982 2011-11-07
  • 打赏
  • 举报
回复
这个还是比较简单的
1:先用正则去掉所有html标签
2:判断余下的子符数是否大于指定数,若大于
3:采用mb_substring 来切取指定的数,同时判断截取的最后一个字符在前面出现在过多少
4:采用mb_substring 切取原字符
5:采用tidy 来修复截断的html 标签
kyzy_yy_pm 2011-11-07
  • 打赏
  • 举报
回复
从0开始截取的


function substr_ignore_tags($str, $len = 0){
function strRepeat($str, $frequency){
if(!$frequency){
return ;
}
for($i = 0; $i < $frequency; $i++){
$str .= $str;
}
return $str;
}

$str = preg_replace('#(</?[^>]+>)#', chr(9) . '\1', $str);
$arr = explode(chr(9), $str);
if(count($arr) == 1){
return $str;
}

$str = '';
while(strlen(strip_tags($str)) < $len){
$_str = array_shift($arr);
$strLen = strlen(strip_tags($str));
$_strLen = strlen(strip_tags($_str));
if($strLen + $_strLen >= $len){
$getLen = $len - $strLen;
preg_match_all('#(</?[^>]+>)#', $_str, $match);
if(!isset($match[0][0])){
return $_str;
}
$endTag = $match[0][0];
$str .= $endTag . substr(strip_tags($_str), 0, $getLen);
break;
}else{
$str .= $_str;
}
}

preg_match_all('#(</?[^>]+>)#', $str, $match);
$allTags = array_reverse($match[0]);

$_allTags = array();
foreach($allTags as $tag){
if(strpos($tag, '</') !== false){
preg_match('#</([^>]+)>#', $tag, $_tag);
if(isset($_allTags[trim($_tag[1])]['n_num'])){
$_allTags[trim($_tag[1])]['n_num'] += 1;
}else{
$_allTags[trim($_tag[1])] = array('s_num' => 0, 'n_num' => 1);
}
}else{
preg_match('#<([^ ]+)([^>]*)>#', $tag, $_tag);
if(isset($_allTags[trim($_tag[1])]['s_num'])){
$_allTags[trim($_tag[1])]['s_num'] += 1;
}else{
$_allTags[trim($_tag[1])] = array('s_num' => 1, 'n_num' => 0);
}
}
}

foreach($_allTags as $tag => $info){
$str .= strRepeat('</' . $tag . '>', $info['n_num'] - $info['s_num']);
}

return $str;
}

$str = 'aaaaa<span style="color: red">bbbbb<b>ccccc</b>ddddd</span>eeeee';
$len = 6;
echo substr_ignore_tags($str, $len);

21,887

社区成员

发帖
与我相关
我的任务
社区描述
从PHP安装配置,PHP入门,PHP基础到PHP应用
社区管理员
  • 基础编程社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧