perl正则表达式如何匹配泰文?

kit_9875507 2011-01-25 03:11:43
项目需要用perl抓取一些含有泰文和中文的网页,传统的思路应该是使用

LWP::Simple获取网页的内容,然后用该内容去匹配 泰文编码吧,查阅了一些

资料,说是 $content =~ /[0e00-0e7f]/,这个我试了,泰文能匹配,可是好像

有些不是泰文的东西它也能匹配下来~~! 请各位达人不吝赐教!
...全文
510 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
月落夜黄昏 2012-02-21
  • 打赏
  • 举报
回复
您好,请问 解决问题了嘛?有例子不、?
iambic 2011-01-26
  • 打赏
  • 举报
回复
当然。否则都是256个字节排列,单挑出来识别不出是什么字。
kit_9875507 2011-01-26
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 iambic 的回复:]
\p{Thai}应该就可以匹配泰文吧。\p{Han}匹配汉语。你自己先试试吧。注意字符串要是unicode的。
[/Quote]

我想网页要用多国文字那网页的字符集必须是utf-8吧~~
那读进来也是utf-8,你的意思是我还得把utf-8的文本转换成Unicode的吗
tiao618 2011-01-26
  • 打赏
  • 举报
回复
\p{InThai}是泰文块 unicode范围是 \u0E00-\u0E7F
iambic 2011-01-25
  • 打赏
  • 举报
回复
\p{Thai}应该就可以匹配泰文吧。\p{Han}匹配汉语。你自己先试试吧。注意字符串要是unicode的。

37,718

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧