问个字符串多模匹配的问题;

littlexidong 2012-09-14 09:19:47
RT!

已知模式串包含中文和英文,数量众多,长度不一。
输入的文本有中文和英文。

讨论下怎么匹配好?例如: 中文采用何种编码好?

...全文
122 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
littlexidong 2012-09-14
  • 打赏
  • 举报
回复
自己先讨论下:
1. 对于中文英文混杂的文本和模式串,可以统一使用 UTF8 编码,将它们当成 uint8 类型的字符,好处是方便,不好的地方是,对于中文而言,使用 utf8编码, 其实一次可以处理3个字符,现在只能处理1个,可能对效率影响教大。可以考虑,将文本切割成小段,小段的,每一段要么是中文,要么是英文,同理,对于模式串,分为两部分,英文和中文的,这样,中文的文本区匹配中文的模式串, 英文匹配英文的字符串,虽然麻烦点,但是估计能块点
haojuntu 2012-09-14
  • 打赏
  • 举报
回复
没看明白,用正则不可以吗

33,008

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧