如何提取中文字符,并算出该字符的位置?

madcatw 2010-07-12 06:31:48
字符串1:一?二? //中文的问号
字符串2:?一?二 //英文的问号
字符串3:一 二 //中间有空格

php如何匹配出以上字符串里的中文文字?并求出该字符的位置
搞了半天搞不定,以下我的代码,大家别笑话

$k1 = "";
$k2 = "";
$k3 = "";
$k4 = "";
if(ord(substr($this->Keywords,1,1))>127)
{
$k1 = substr($this->Keywords,0,2);
}else {$k1=false;}
if(ord(substr($this->Keywords,2,1))>127)
{
$k2 = substr($this->Keywords,2,2);
}else {$k2=false;}
if(ord(substr($this->Keywords,3,1))>127)
{
$k3 = substr($this->Keywords,3,2);
}else {$k3=false;}
if(ord(substr($this->Keywords,4,1))>127)
{
$k4 = substr($this->Keywords,4,2);
}else {$k4=false;}
...全文
372 点赞 收藏 12
写回复
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
k3842407 2013-01-15
回复
Dleno 2010-07-12
晕,就揭贴了

回复
Dleno 2010-07-12

$str="规:范化 不得不知,道代动不,动不得不风格感?表 ";
$result=getCN($str);//UTF-8编码调用
//$result=getCN($str,"GB2312",2);//GB2312编码调用
//$result=getCN($str,"?",单个字符字节数);//?编码调用
print_r($result);
function getCN($string,$charset="UTF-8",$charnum=3){
$tmpstr = $string;
$utf8 = $charset=="UTF-8"?true:false;
!$utf8 && $string = iconv($charset,"UTF-8",$string);
preg_match_all("/[\x80-\xff]{3}/",$string,$data);
$cnarr=array();
foreach($data[0] as $key=>$char){
if(!preg_match_all("/[\\pP]/u",$char,$math)){
$cnarr[$key]['char']=$utf8?$char:iconv("UTF-8",$charset,$char);
$cnarr[$key]['start']=strpos($tmpstr,$cnarr[$key]['char']);
$cnarr[$key]['end']=$cnarr[$key]['start']+$charnum;
}
}
return $cnarr;
}
回复
madcatw 2010-07-12
2楼的方法可行,算是搞定了
6楼的方法似乎比较可靠,但字符的位置不好算,呵呵,我非常菜
回复
amani11 2010-07-12
编码涉及到中日文,就复杂了

典型的,如果是Unicode编码

“直”,中日编码是一样的

“步”和“歩”,注意字型,编码是不一样的

单单凭短短的几个字节,是区分不了中日文字的。。。。
回复
Coder_Granger 2010-07-12
ls都忽略了一个问题,除了中文,还有韩文和日文等问题都不在0-127范围内,

要取出中文字符,必须做的两件事情:

1. 得到该字符串的编码.

2. 得到中文字符在该编码表示下,值的范围.
回复
amani11 2010-07-12

$str = '一?二?';
$arr = preg_split('/\?|?| /', $str, -1, PREG_SPLIT_OFFSET_CAPTURE);
print_r($arr);
//得到二维数组,$arr[$i][0] 匹配满足的字符,$arr[$i][1]匹配位置
//这个位置是strlen,如果中文算一个字符,只需要截取前面那段字符,用mb_strlen即可

回复
CunningBoy 2010-07-12
你可以用mb_detect_encoding去检测输入字符串的编码。
回复
yukon12345 2010-07-12
mb_detect_encoding($str, "gbk, gb2312, utf-8")

可以检测文字编码。不过经常会出错。

还是建议用utf-8版的cms。


回复
madcatw 2010-07-12
谢谢LS,字符串是用户输入的,不确定是什么编码
但我用的是DEDECMS GBK的,用户输入的字符串是否就是gb2312的呢?
回复
CunningBoy 2010-07-12
$k1 = mb_substr($this->Keywords, 0, 1, "UTF-8");
回复
yukon12345 2010-07-12
那要看是utf8还是gb2312.
我看你的是utf8的检测。utf8中文占3字节,头字节>127。
str_split后,检测到大于127的,后面2个字节也获取即可。
回复
发动态
发帖子
基础编程
创建于2007-09-28

2.1w+

社区成员

从PHP安装配置,PHP入门,PHP基础到PHP应用
申请成为版主
社区公告
暂无公告