我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c、java、C#、delphi、js调用范例

neryalwu 2011-12-02 09:32:33
我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c、java、C#、delphi、js调用范例


百万商业圈中英文混合分词服务器3.0正式发布,绝对稳定高效,分词库扩大到了190多万词汇,

开发语言:C语言
编译器:GCC
测试环境:xp、win2000、win2003、win7、win2008、win8
质量测试:用例共 3000分10K+的随机文章
平均性能:5万字以内的文章单线程切分1秒内可以切分完毕


3.0版算法做了全面修正,分词准确性、服务稳定性、健壮性、速度都有了质的飞跃!
同时提供c、java、C#、delphi、js调用范例


支持大规模并发,线程安全、5万字以内的文章单线程切分1秒内可以切分完毕!

软件名称:百万商业圈中文分词服务器 作者:QQ 99923309
具体使用时可将词库文件(190多万词汇) bwsyq.com.dat 放在分词服务器相同的目录即可
使用前请先启动分词服务器

分词服务器程序既是一个windows 服务程序, 服务名称是:bwsyq fenci service and serve 0.1 (百万商业圈中文分词服务器)
同时又是一个简单的webserver安装启动后,你可以直接在浏览器中输入 http://127.0.0.1:888 进行使用
同时又还是一个Scoket server 通信端口是 888.

分词服务器安装方式有两种(假设你保存在D盘,如果不是请自行更改):
一、也可以直接通过双击 安装分词服务器.bat 来进行安装
二、d:\fenciserver.exe install 回车即可!(安装后就会自动启动服务)

分词服务器卸载方式是(假设你保存在D盘,如果不是请自行更改):
一、也可以直接通过双击 卸载分词服务器.bat 来进行卸载
二、d:\fenciserver.exe uninstall 回车即可!(卸载后就会自动关闭服务)

另外:为了便于大家的开发使用,
我提供了Delphi、C#、Java、Html、javascript这几中不同语言的使用代码。

词库文件 bwsyq.com.dat 请与分词服务器保存在同一目录下,并且不能改名!

使用步骤:
一、下载分词服务器和词库文件,词库文件与分词服务器保存在同一目录下。
二、分词服务器安装,请参考上面的说明。
三、可以开始使用了!

相关工具说明: ImportCiHuiToCiKuFromFile.exe 词库批量导入工具 具体说明:
用法比如: c:\ImportCiHuiToCiKuFromFile.exe "c:\词汇文档.txt" 回车即可
"c:\词汇文档.txt" 中请按照一个词一行的格式 保存,文件编码请采用ANSI格式


下载地址:http://www.everbox.com/f/SqsPamaSN9lxv1SB4OCbHGI7X9
可免费使用,版权归属: http://www.bwsyq.com

有任何疑问请与我沟通:QQ 99923309
...全文
268 8 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
nonocast 2012-03-15
  • 打赏
  • 举报
回复
分词是个技术活,而且现在用并发比较好
sumoon2002 2012-02-15
  • 打赏
  • 举报
回复
why?
瓶盒 2011-12-15
  • 打赏
  • 举报
回复
感觉分词的速度有点慢了,最近学习开源的ICTCLAS,修改之后,速度能达到250KB/S少上,感兴趣的同学可以到此下载http://download.csdn.net/detail/bottlebox/3918806
joeywen 2011-12-15
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 winterlight09 的回复:]

引用 1 楼 neryalwu 的回复:

中文分词服务器3.0逆向分词有点小问题已修正!

中文分词服务器 最新改进版fenciserver 3.1下载:
http://www.everbox.com/f/q9CJbCBVmvpizndCnNNQlBIBUv

顶!
有木有源码,供研究研究啊……
[/Quote]

同求~~
chaoplusplus 2011-12-11
  • 打赏
  • 举报
回复
是不是做搜索引擎要用的
暗夜精灵 2011-12-09
  • 打赏
  • 举报
回复
完全没有明白这软件是做什么用的。。。。。
分词是个什么概念?
winterlight09 2011-12-09
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 neryalwu 的回复:]

中文分词服务器3.0逆向分词有点小问题已修正!

中文分词服务器 最新改进版fenciserver 3.1下载:
http://www.everbox.com/f/q9CJbCBVmvpizndCnNNQlBIBUv
[/Quote]
顶!
有木有源码,供研究研究啊……
neryalwu 2011-12-08
  • 打赏
  • 举报
回复
中文分词服务器3.0逆向分词有点小问题已修正!

中文分词服务器 最新改进版fenciserver 3.1下载:
http://www.everbox.com/f/q9CJbCBVmvpizndCnNNQlBIBUv
Friso 是使用 c 语言开发的一款开源的高性能中文器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中, 例如:MySQL,PHP,并且提供了php5,php7,ocaml,lua的插件实现。源码无需修改就能在各种平台下编译使用,加载完 20 条,内存占用稳定为 14.5M。 Friso核心功能: 中文:mmseg算法 + Friso 独创的优化算法,四种切分模式。 关键字提取:基于textRank算法。 关键短语提取:基于textRank算法。 关键句子提取:基于textRank算法。 四种切分模式: 简易模式:FMM 算法,适合速度要求场合。 复杂模式- MMSEG 四种过滤算法,具有较高的岐义去除,准确率达到了98.41%。 检测模式:只返回中已有的条,很适合某些应用场合。(1.6.1版本开始)。 最多模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与复杂模式一致(英文,组合等)。 功能特性: 1、同时支持对 UTF-8/GBK 编码的切分,支持 php5 和 php7 扩展和 sphinx token 插件。 2、支持自定义。在 dict 文件夹下,可以随便添加/删除/更改条,并且对进行了分类。 3、简体/繁体/简体混合支持,可以方便的针对简体,繁体或者简繁体切分。同时还可以以此实现简繁体的相互检索。 4、支持中英/英中混合的识别(维护可以识别任何一种组合)。例如:卡拉ok,漂亮mm,c语言,IC卡,哆啦a梦。 5、很好的英文支持,英文标点组合识别,例如c++,c#,电子邮件,网址,小数,百分数。 6、自定义保留标点:你可以自定义保留在切分结果中的标点,这样可以识别出一些复杂的组合,例如:c++,k&r,code.google.com。 7、复杂英文切分的二次切分:默认 Friso 会保留数字和字母的原组合,开启此功能,可以进行二次切分提高检索的命中率。例如:qq2013会被切分成:qq/ 2013/ qq2013。 8、支持阿拉伯数字/小数基本单字单位的识别,例如2012年,1.75米,5吨,120斤,38.6℃。 9、自动英文圆角/半角,大写/小写转换。 10、同义匹配:自动中文/英文同义追加. (需要在 friso.ini 中开启 friso.add_syn 选项)。 11、自动中英文停止过滤。(需要在 friso.ini 中开启 friso.clr_stw 选项)。 12、多配置支持,安全的应用于多进程/多线程环境。

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧