如何提取中文字符，并算出该字符的位置？

madcatw 2010-07-12 06:31:48

字符串1：一？二？ //中文的问号
字符串2：?一?二 //英文的问号
字符串3：一二 //中间有空格

php如何匹配出以上字符串里的中文文字？并求出该字符的位置
搞了半天搞不定，以下我的代码，大家别笑话

$k1 = "";
$k2 = "";
$k3 = "";
$k4 = "";
if(ord(substr($this->Keywords,1,1))>127)
{
$k1 = substr($this->Keywords,0,2);
}else {$k1=false;}
if(ord(substr($this->Keywords,2,1))>127)
{
$k2 = substr($this->Keywords,2,2);
}else {$k2=false;}
if(ord(substr($this->Keywords,3,1))>127)
{
$k3 = substr($this->Keywords,3,2);
}else {$k3=false;}
if(ord(substr($this->Keywords,4,1))>127)
{
$k4 = substr($this->Keywords,4,2);
}else {$k4=false;}

...全文

467 12 打赏收藏转发到动态举报

写回复

用AI写文章

12 条回复

切换为时间正序

请发表友善的回复…

发表回复

k3842407 2013-01-15

打赏
举报

Dleno 2010-07-12

打赏
举报

晕，就揭贴了

Dleno 2010-07-12

打赏
举报



$str="规:范化 不得不知,道代动不，动不得不风格感？表 ";

$result=getCN($str);//UTF-8编码调用

//$result=getCN($str,"GB2312",2);//GB2312编码调用

//$result=getCN($str,"?",单个字符字节数);//?编码调用

print_r($result);

function getCN($string,$charset="UTF-8",$charnum=3){

	$tmpstr = $string;

	$utf8 = $charset=="UTF-8"?true:false;

	!$utf8 && $string = iconv($charset,"UTF-8",$string);

	preg_match_all("/[\x80-\xff]{3}/",$string,$data);

	$cnarr=array();

	foreach($data[0] as $key=>$char){

		if(!preg_match_all("/[\\pP]/u",$char,$math)){

			$cnarr[$key]['char']=$utf8?$char:iconv("UTF-8",$charset,$char);

			$cnarr[$key]['start']=strpos($tmpstr,$cnarr[$key]['char']);

			$cnarr[$key]['end']=$cnarr[$key]['start']+$charnum;

		}

	}

	return $cnarr;

}

madcatw 2010-07-12

打赏
举报

2楼的方法可行，算是搞定了
6楼的方法似乎比较可靠，但字符的位置不好算，呵呵，我非常菜

amani11 2010-07-12

打赏
举报

编码涉及到中日文，就复杂了

典型的，如果是Unicode编码

“直”，中日编码是一样的

“步”和“歩”，注意字型，编码是不一样的

单单凭短短的几个字节，是区分不了中日文字的。。。。

Coder_Granger 2010-07-12

打赏
举报

ls都忽略了一个问题，除了中文，还有韩文和日文等问题都不在0-127范围内，

要取出中文字符，必须做的两件事情:

1. 得到该字符串的编码.

2. 得到中文字符在该编码表示下，值的范围.

amani11 2010-07-12

打赏
举报



$str	= '一？二？';

$arr	= preg_split('/\?|？| /', $str, -1, PREG_SPLIT_OFFSET_CAPTURE);

print_r($arr);

//得到二维数组，$arr[$i][0] 匹配满足的字符，$arr[$i][1]匹配位置

//这个位置是strlen，如果中文算一个字符，只需要截取前面那段字符，用mb_strlen即可

CunningBoy 2010-07-12

打赏
举报

你可以用mb_detect_encoding去检测输入字符串的编码。

步慢生错 2010-07-12

打赏
举报

mb_detect_encoding($str, "gbk, gb2312, utf-8")

可以检测文字编码。不过经常会出错。

还是建议用utf-8版的cms。

madcatw 2010-07-12

打赏
举报

谢谢LS，字符串是用户输入的，不确定是什么编码
但我用的是DEDECMS GBK的，用户输入的字符串是否就是gb2312的呢？

CunningBoy 2010-07-12

打赏
举报

$k1 = mb_substr($this->Keywords, 0, 1, "UTF-8");

步慢生错 2010-07-12

打赏
举报

那要看是utf8还是gb2312.
我看你的是utf8的检测。utf8中文占3字节，头字节>127。
str_split后，检测到大于127的，后面2个字节也获取即可。

常用于字符提取的函数是 LEFT 函数、RIGHT 函数和 MID 函数。LEFT 函数可以从一个字符串的左侧开始提取出指定数量的字符，其语法如下。例如，已知身份证号码的前 6 位包含了所属地域的信息，要使用公式获取这 6 位代码来进行地域的查询。假定身份证号码“513029195101153313”存储在 A1 单元格内，可以使用以下公式来截取身份证号码的前 6 位。公式运算结果为字符...

本系统是对中文字库HZK16和ASC16字库进行操作 HZK16字库中每一个中文字符使用的是32字节的点阵信息，ASC16字库是16字节的点阵信息打印本文实现了中文汉字的点阵信息打印和字符的操作，包括插入未知字符（囧）（需要借助软件PCtoLCD.exe实现点阵信息的提取）

在日常使用Excel时，常会碰到需要提取Excel单元格中数字的情况，如果单纯只是数字，那很简单，但对于文本数字混合的情况，如何提取单元格中的数字呢？本文就给大家详解提取Excel单元格中的数字的方法。工具/原料 Excel 方法/步骤打开需要编辑的Excel表格，如下图所示： ...

记录一下2020末流2A-未来的广交大的大三下学期MATLAB图像处理的课程设计为了进行牌照识别，需要以下几个基本的步骤： a.牌照定位，定位图片中的牌照位置； b.牌照字符分割，把牌照中的字符分割出来； c.牌照字符识别，把分割好的字符进行识别，最终组成牌照号码。 1.牌照定位（1）读入图片先判断是彩色照片还是灰度图，如果是彩色照片就把读入的图片转化为灰度图。（2）图像预处理（3）边缘提取把图像转为二值图像，利用[3,3]矩形模板对处理后的灰度图进行开运算。...

看了一个点阵的实现形式,感觉挺好的.对其中的技术点总结一下.点阵的显示原理当字符或者图片在点阵上需要显示时,可以认为是数据源在对应的像素点上的像素是有或者没有. 如果有那么这一个像素点九显示反之就不显示. 那么需求就来了如何得到资源数据(字符或者图片)像素值(这个像素值应该是个二位数组).像素值的存放在java中所有的数据底层都是byte(字节),字节数据可以存放到byte数组中.那么存放的问题就

基础编程

21,889

社区成员

140,337

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章