清华大学开放中文词库

幻灰龙 2021-08-18 23:20:08

http://thuocl.thunlp.org/ http://thuocl.thunlp.org/

THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点:

包含词频统计信息DF值(Document Frequency),方便用户个性化选择使用。

词库经过多轮人工筛选,保证词库收录的准确性。

开放更新,将不断更新现有词表,并推出更多类别词表。欢迎专业人士加入,协作建设开放词库,有意者请致信 thunlp@gmail.com mailto:thunlp@gmail.com

该词库可以用于中文自动分词,提升中文分词效果。建议搭配本组研制开发的THULAC工具包使用,提升特定领域中文分词的效果。

词库格式及词频统计语料库
词库每一行由两部分组成,分别是词和DF值(存在此单词的文档个数),中间由Tab间隔。

词频统计语料库:

CSDN博客 时间:2014.07-2016.07 文档数:3785976
新浪新闻 时间:2008.01-2016.11 文档数:8421097
搜狗语料 文档数:729008561

...全文
328 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
Elasticsearch 简介 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。elasticSearch 的使用场景 1、在海量数据前提下,对数据进行检索。比如:京东,淘宝等电商项目课程目标: 1. 了解企业级搜索引擎2. 安装elasticsearch 课程目录: 01 课程介绍02 elasticsearch 简介03 elasticsearch 使用场景04 安装elasticsearch 之前先安装jdk05 安装elasticsearch06 测试elasticsearch是否安装成功 07 安装kibana08 elasticsearch 基本认识 以及添加索引和删除索引09 elasticsearch 添加查询数据10 elasticsearch 修改删除数据11 elasticsearch 有条件的查询12 分词子属性fuzzy查询13 elasticsearch 过滤使用14 elasticsearch 排序与分页15 elasticsearch 如何查询指定的字段16 elasticsearch 高亮显示17 elasticsearch 聚合18 elasticsearch mapping 概念19 elasticsearch 的中文词库20 elasticsearch 中文词库安装测试21 elasticsearch 中文词库的使用案例22 elasticsearch 自定义词库配置23 安装nginx 配置中文词库24 测试elasticsearch 自定义中文词库25 搭建项目父工程26 搭建项目bean-interface-common27 搭建search 的service web 项目28 测试项目是否能与elasticsearch联通29 创建数据库并搭建首页30 数据上传功能的实现类完成31 数据上传控制器完成32 dubbo 介绍以及安装zookeeper33 将数据从mysql 上传到elasticsearch 中34 elasticsearch查询功能分析35 编写业务需求的dsl 语句36 编写输入参数返回结果集的实体类37 实现类编写38 编写实现类中dsl 语句39 返回集结果转换40 结果测试41 测试通过输入查询条件并将数据显示到页面

571

社区成员

发帖
与我相关
我的任务
社区描述
自然语言处理实战,讨论算法、模型、服务、应用。请具体描述问题,提出问题。
算法推荐算法人工智能 个人社区
社区管理员
  • community_282
  • SoftwareTeacher
  • Alexxinlu
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

自然语言处理实战。

试试用AI创作助手写篇文章吧