社区
脚本语言
帖子详情
Python中用正则表达式匹配中文
clydecheung
2007-04-04 03:36:08
我想在Python中用正则表达式匹配中文,用的是[\u4e00-\u9fa5]这段代码~~但是匹配结果有问题,这个表达式不仅能匹配中文,也能匹配英文字符~~
在别的语言中试验是好使的,但在Python中不好使~~不知道问什么~~是编码的问题么?
...全文
3990
8
打赏
收藏
Python中用正则表达式匹配中文
我想在Python中用正则表达式匹配中文,用的是[\u4e00-\u9fa5]这段代码~~但是匹配结果有问题,这个表达式不仅能匹配中文,也能匹配英文字符~~ 在别的语言中试验是好使的,但在Python中不好使~~不知道问什么~~是编码的问题么?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
8 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
iambic
2007-04-07
打赏
举报
回复
原来的字符串不是unicode。
N / A
2007-04-06
打赏
举报
回复
ur'[\u2e80-\uffff]'
clydecheung
2007-04-04
打赏
举报
回复
谢谢zarz,在上面的链接中找到个方法~~
//判断内容里有没有中文-GBK (PHP)
function check_is_chinese($s){
return preg_match('/[\x80-\xff]./', $s);
}
虽然不明所以,但是用上面的正则表达式的确好使~~
zarz
2007-04-04
打赏
举报
回复
编码问题比较复杂, 要考量数据源本身的编码格式, 不同的操作系统和设置导致的结构会有不同.
如果数据确定是gbk或gb2312的话, 你可以参考:
http://blog.csdn.net/heiyeshuwu/archive/2007/01/20/1488900.aspx
xyzxyz1111
2007-04-04
打赏
举报
回复
乔丹的gb2312 编码貌似是'\xc7\xc7\xb5\a4'
不在此范围之内
clydecheung
2007-04-04
打赏
举报
回复
很奇怪,汉字的Unicode编码不是从4e00到9fa5的么?
clydecheung
2007-04-04
打赏
举报
回复
# -*- coding: gb2312 -*-
import re
text = "Jordan (乔丹) Jordan (Jordan)"
p = re.compile(r"Jordan\s*\([^\)]*[\u4e00-\u9fa5][^\)]*\)", re.IGNORECASE)
iterator = p.finditer(text)
for match in iterator:
print match.group()
我想要的结果是"Jordan (乔丹)",但程序给出的结果是"Jordan (Jordan)"
yangxiao_jiang
2007-04-04
打赏
举报
回复
贴出代码看看
Python
笔记-使用requests获取网页数据及re
中用
正则表达式获取指定数据
如下代码: import re import requests class HandleLaGou(object): def __init__(self): self.laGou_session = requests.session() self.header = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537
Python
正则表达式匹配
中文
用法示例
主要介绍了
Python
正则表达式匹配
中文
用法,结合实例形式分析了
Python
针对
中文
的正则与文件操作相关技巧,需要的朋友可以参考下
正则表达式技能补全[项目源码]
本文详细介绍了正则表达式的基本概念、元字符、标志及运算优先级。首先解释了模式作为正则表达式的基本单元,以及如何使用
Python
的re模块进行支持。接着分类讲解了量词、字符集、边界匹配、分组和特殊字符等元字符的功能及实践案例。此外,还介绍了正则表达式的标志(如IGNORECASE、MULTILINE等)及其在
Python
中的使用方法。最后,阐述了正则表达式的运算优先级,包括转义符、括号、量词、字符类等运算符的优先级顺序,帮助读者更好地理解和应用正则表达式。
【
python
】——正则表达式(csdn)————程序.pdf
【
python
】——正则表达式(csdn)————程序
Python
的爬虫包Beautiful Soup
中用
正则表达式来搜索
主要介绍了
Python
的爬虫包Beautiful Soup
中用
正则表达式来搜索的技巧,包括使用正则表达式去搜索多种可能的关键字以及查找属性值未知的标签等,需要的朋友可以参考下
脚本语言
37,743
社区成员
34,212
社区内容
发帖
与我相关
我的任务
脚本语言
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
复制链接
扫一扫
分享
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
试试用AI创作助手写篇文章吧
+ 用AI写文章