社区
自然语言处理(NLP)
算法
帖子详情
一个好用的分词器、分句器、分段器还是很有用的
幻灰龙
2022-09-30 11:09:47
不知道大家有没做过分句器和分段器。
...全文
成就一亿技术人!
201
回复
打赏
收藏
一个好用的分词器、分句器、分段器还是很有用的
不知道大家有没做过分句器和分段器。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
《自然语言处理技术综述(第三版)》(2)----分词和归一化
写在前面: 学习和应用NLP有几年了,在工程应用上也小有成果,除了开发了智能客服、智能营销、智能回访、保险智能机
器
人系统外,正在做
一个
开放平台,希望不久能为更多企业、个人所使用。在这个过程中积累了很多算法改进、应用架构、工程实施以及产品优化方面的经验,希望能尽可能的分享给大家。这个专栏里,我将翻译《Speech and Language Processing(第三版)》(目前还是草案)。希望能给...
U1C2 文本预处理
U1C2 Text pre-processing一、正则表达式 - Regular Expressions1、基本正则表达式模式 Basic Regular Expression Patterns2、析取、分组与优先级 Disjunction, Grouping, and Precedence二、更多正则表达式:替换和ELIZA - More Regular Expressions:Substitutions and ELIZA三、词汇和语料库 - Words and Corpora四、单词标记化 - Wo
LlamaIndex:轻松构建索引查询本地文档的神
器
LlamaIndex(以前称为 GPT Index)是
一个
开源项目,它在 LLM 和外部数据源(如 API、PDF、SQL 等)之间提供
一个
简单的接口进行交互。它提了供结构化和非结构化数据的索引,有助于抽象出数据源之间的差异。它可以存储提示工程所需的上下文,处理当上下文窗口过大时的限制,并有助于在查询期间在成本和性能之间进行权衡。向量存储索引:最常用,允许您回答对大型数据集的查询。树索引:对于总结文档集合很
有用
。列表索引:对于合成
一个
结合了多个数据源信息的答案很
有用
。关键字表索引。
SIFRank_zh与关键词提取
介绍本文尝试从几个方面来介绍提取关键词所知的技术,以及关键词提取所遇到的问题,接着介绍SIFRank-zh算法,最后穿插下个人的理解与总结。 关键词提取技术刚开始接触这个概念的时候,网上一大堆介绍TF-IDF和TextRank算法,这俩简直已经称为了关键词提取的baseline。关于TF-IDF,的确在许多文档中已经作为了baseline来和其他技术相对比,是一种简...
Java开发者LLM实战——使用LangChain4j构建本地RAG系统
RAG(Retrieval-Augmented Generation)的核心思想是:将传统的信息检索(IR)技术与现代的生成式大模型(如chatGPT)结合起来。具体来说,RAG模型在生成答案之前,会首先从
一个
大型的文档库或知识库中检索到若干条相关的文档片段。再将这些检索到的片段作为额外的上下文信息,输入到生成模型中,从而生成更为准确和信息丰富的文本。RAG的工作原理可以分为以下几个步骤:1.接收请求:首先,系统接收到用户的请求(例如提出
一个
问题)。2.信息****检索(R)
自然语言处理(NLP)
689
社区成员
192
社区内容
发帖
与我相关
我的任务
自然语言处理(NLP)
自然语言处理实战,讨论算法、模型、服务、应用。请具体描述问题,提出问题。
复制链接
扫一扫
分享
社区描述
自然语言处理实战,讨论算法、模型、服务、应用。请具体描述问题,提出问题。
算法
推荐算法
人工智能
个人社区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
自然语言处理实战。
试试用AI创作助手写篇文章吧
+ 用AI写文章