社区
其他开发语言
帖子详情
JAVA 怎么判断字符串是否维语啊
MoMeaker
2018-01-08 04:16:47
JAVA 怎么判断字符串是否维语啊,其他语言也行
...全文
1110
1
打赏
收藏
JAVA 怎么判断字符串是否维语啊
JAVA 怎么判断字符串是否维语啊,其他语言也行
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
日立奔腾浪潮微软松下联想
2018-01-08
打赏
举报
回复
逐字符判断编码范围
LJParser文本搜索与挖掘开发平台
一、简介 LJParser文本搜索与挖掘开发平台包括:全文精准搜索,新词发现,汉语分词标注,词语统计与术语翻译,自动聚类与热点发现,分类过滤,自动摘要,关键词提取,文档去重,正文提取等十余项功能。针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供
Java
,C,C#等各类开发语言使用。 LJParser是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。 二、功能 LJParser文本搜索与挖掘开发平台的十大功能: 1. 全文精准检索 支持文本、数字、日期、
字符串
等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持
维语
、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现: 从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。 3. 分词标注: 对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。 4. 统计分析与术语翻译 针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。 5. 文本聚类及热点分析 能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。 6. 分类过滤 针对事先指定的规则和示例样本,系统自动从海量文档中筛选出符合需求的样本。 7. 自动摘要 能够对单篇或多篇文章,自动提炼出内容的精华,方便用户快速浏览文本内容。 8. 关键词提取 能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。 9. 文档去重 能够快速准确地
判断
文件集合或数据库中
是否
存在相同或相似内容的记录,同时找出所有的重复记录。 10. HTML正文提取 自动剔除导航性质的网页,剔除网页中的HTML标签和导航、广告等干扰性文字,返回有价值的正文内容。适用于大规模互联网信息的预处理和分析。 三、文件说明 1. LJParser.exe 可执行文件,本版本为试用版本,大规模语料处理需要购买正式版 2. 演示语料 演示用语料,用户可替换,必须为文本文件,演示只支持GBK;正式版本可以支持UTF-8编码; 3. 各种dll为各组件的调用接口,本演示程序全部基于已有的调用接口实现; 4. 文档说明,参见当前目录下的 5. 白皮书下载:http://www.lingjoin.com/download/LJParser%20Manual.doc 6. 软件下载:http://www.lingjoin.com/download/LJParser.rar
维文、哈萨克文、柯尔克孜文检测 (
java
实现把UTF-8转为unicode)
对于特定语言的检测并不是一个困难的问题:统计一段文字中有多少个字符落在某语言的基本语素集合(例如:中文中的声韵母)中,然后计算比例,就可以给出答案。 已经有ibm的icu在这方面做得很好,而且计算速度很快。但是对于少数民族的语言并未全部提供支持,譬如维文、柯尔克孜文。 因为icu复杂性较高,研究通透,再做二次开发需要一段时间。为了满足当前简单的需求,手写了一个简单的检测程序。原理同上,但是其中...
微信小程序开发教程(第一阶段、页面设计)(维吾尔语)
微信小程序开发教程。 微信小程序开发一系列教程包含html、css、
java
script、jquery、php、thinkphp、mysql数据库、微信小程序等等知识。 第一阶段是学习的内容是页面设计(html+css)。
关于正则表达式匹配
字符串
判断
语种的问题小结
今天遇到了这么一个坑的问题,设计的多语言功能,一共十五种语言,都可以正常显示出来,除了阿拉伯语,韩语,印地语!!! 这就是一个坑啊,找遍方法,最终想到了用正则表达式
判断
unicode来
判断
,不由得给自己点了个赞,然后就懵逼了,死活
判断
不进!!! 代码如下: if (content.matches("[\\u0600-\\u06ff|\\u0750-\\u077f]+")) { //单...
字符集及
Java
中的字符知识整理
一.字符相关的定义 (一)字符:各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。 (二)字符集:是一个系统支持的所有抽象字符的集合,也就是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同。(常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。) (三)字符编码:是一套法则,...
其他开发语言
3,423
社区成员
15,635
社区内容
发帖
与我相关
我的任务
其他开发语言
其他开发语言 其他开发语言
复制链接
扫一扫
分享
社区描述
其他开发语言 其他开发语言
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章