社区
脚本语言
帖子详情
Python中用正则表达式匹配中文
clydecheung
2007-04-04 03:36:08
我想在Python中用正则表达式匹配中文,用的是[\u4e00-\u9fa5]这段代码~~但是匹配结果有问题,这个表达式不仅能匹配中文,也能匹配英文字符~~
在别的语言中试验是好使的,但在Python中不好使~~不知道问什么~~是编码的问题么?
...全文
3905
8
打赏
收藏
Python中用正则表达式匹配中文
我想在Python中用正则表达式匹配中文,用的是[\u4e00-\u9fa5]这段代码~~但是匹配结果有问题,这个表达式不仅能匹配中文,也能匹配英文字符~~ 在别的语言中试验是好使的,但在Python中不好使~~不知道问什么~~是编码的问题么?
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
8 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
iambic
2007-04-07
打赏
举报
回复
原来的字符串不是unicode。
N / A
2007-04-06
打赏
举报
回复
ur'[\u2e80-\uffff]'
clydecheung
2007-04-04
打赏
举报
回复
谢谢zarz,在上面的链接中找到个方法~~
//判断内容里有没有中文-GBK (PHP)
function check_is_chinese($s){
return preg_match('/[\x80-\xff]./', $s);
}
虽然不明所以,但是用上面的正则表达式的确好使~~
zarz
2007-04-04
打赏
举报
回复
编码问题比较复杂, 要考量数据源本身的编码格式, 不同的操作系统和设置导致的结构会有不同.
如果数据确定是gbk或gb2312的话, 你可以参考:
http://blog.csdn.net/heiyeshuwu/archive/2007/01/20/1488900.aspx
xyzxyz1111
2007-04-04
打赏
举报
回复
乔丹的gb2312 编码貌似是'\xc7\xc7\xb5\a4'
不在此范围之内
clydecheung
2007-04-04
打赏
举报
回复
很奇怪,汉字的Unicode编码不是从4e00到9fa5的么?
clydecheung
2007-04-04
打赏
举报
回复
# -*- coding: gb2312 -*-
import re
text = "Jordan (乔丹) Jordan (Jordan)"
p = re.compile(r"Jordan\s*\([^\)]*[\u4e00-\u9fa5][^\)]*\)", re.IGNORECASE)
iterator = p.finditer(text)
for match in iterator:
print match.group()
我想要的结果是"Jordan (乔丹)",但程序给出的结果是"Jordan (Jordan)"
yangxiao_jiang
2007-04-04
打赏
举报
回复
贴出代码看看
Python
笔记-使用requests获取网页数据及re
中用
正则表达式获取指定数据
如下代码: import re import requests class HandleLaGou(object): def __init__(self): self.laGou_session = requests.session() self.header = { 'User-Agent': 'Mozilla/5.0 (Macintosh;...
Python
正则表达式匹配
中文
用法示例
在进行
正则表达式匹配
时,可能需要先进行预处理,例如删除行首行尾的空白字符,这可以通过sub()方法实现。在上述内容中,使用了正则表达式p=***pile('(^\s+|\s+$)'),这个正则表达式的作用是匹配行首和行尾的空格,...
【
python
】——正则表达式(csdn)————程序.pdf
在
Python
编程中,正则表达式(Regular Expression)是一种强大的文本处理工具,它允许我们进行复杂的文本匹配和操作。在
Python
中,正则表达式的功能是通过`re`模块提供的。下面将详细介绍正则表达式的一些核心概念和...
Python
的爬虫包Beautiful Soup
中用
正则表达式来搜索
# 使用
正则表达式匹配
多个可能的class值 h1user_soup_list = soup.findAll(name="h1", attrs={"class": re.compile(r"h1user(\s\w+)?")}) for h1 in h1user_soup_list: print(h1.text) ``` 在这个例子中,`re....
Python
3使用正则表达式爬取内涵段子示例
本文实例讲述了
Python
3使用正则表达式爬取内涵段子的方法。分享给大家供大家参考,具体如下: 似乎正则在爬虫
中用
的不是很广泛,但是也是基本功需要我们去掌握。 先将内涵段子网页爬取下来,之后利用正则进行匹配,...
脚本语言
37,744
社区成员
34,214
社区内容
发帖
与我相关
我的任务
脚本语言
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
复制链接
扫一扫
分享
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
试试用AI创作助手写篇文章吧
+ 用AI写文章