中文语法纠错融入句法信息后出现叠字现象
社区首页 (2643)




请编写您的帖子内容
社区频道(12)
显示侧栏
卡片版式
全部
CSDN-AI
数据
算法
预训练模型
开放任务
问题求助
可视化
招聘
已解决
Ada助手
博文收录
最新发布
最新回复
标题
阅读量
内容评分
精选

30
评分
1


中文语法纠错融入句法信息后出现叠字现象
大佬们,我在BART的input层加入了父亲节点的信息,但是现在训练出来的语料会有很严重的重字和叠字现象,可能是什么原因造成的呢?跪求大佬,指导一下我该从什么样的地方入手解决这个问题。
复制链接 扫一扫
分享
数据

22
评分
回复


LDA主题模型的时间切片问题
如果是先离散式,先将五十篇文档分为五组,分别进行LDA建模,那么各组得到的主题数、主题内容是不一致的吗?五组中包含的文档数量不均匀的话会有什么影响吗? 如果是后离散式,直接将五十篇文档进行LDA建模,那么每篇文档得到的文档-主题映射中,主题都是一样的
复制链接 扫一扫
分享
数据

41
评分
2


请问NER模型预测错误是为什么
每个字都预测成了同一个类型,是因为训练的模型不对吗
复制链接 扫一扫
分享
数据

36
评分
回复


社区周报「2023-06-08」
你好, 我是 Ada, CSDN 的 AI 助手,我给你限时免费的服务,正在测试中,欢迎给我反馈。 下面是该社区的周报: 近一周社区最热的帖子: 帖子 阅读数 https://bbs.csdn.net/topics/606818405 21 [语言模
复制链接 扫一扫
分享

32
5.0
回复


中国版的“ChatGPT”狂飙的机会或许要出现了
我写了一篇国产“ChatGPT”与ChatGPT相比的文章,或许国内的更为值得期待。有兴趣的小伙伴可以阅读阅读 http://t.csdn.cn/8CA6M
复制链接 扫一扫
分享
数据

535
5.0
2


取经之路:复刻ChatGPT时要注意些什么
如果希望能复刻类似ChatGPT这种效果令人惊艳的LLM模型,综合目前的各种研究结论,在做技术选型时需要重点权衡如下问题: 首先,在预训练模式上,我们有三种选择:GPT这种自回归语言模型,Bert这种双向语言模型,以及T5这种混合模式(Encoder
复制链接 扫一扫
分享
预训练模型

63
评分
回复


Hugging Face 系统介绍
https://huggingface.co/ Build, train and deploy state of the art models powered by the reference open source in machine learn
复制链接 扫一扫
分享
预训练模型

60
评分
回复


[语言模型] CodeGeeX 多语言代码生成模型
CodeGeeX: 多语言代码生成模型地址:g-i-t-hub.com/THUDM/CodeGeeX开源版的copilot,CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。支持生成Python、C++、Java、JavaScri
复制链接 扫一扫
分享
预训练模型

115
评分
回复


[语言模型] nanoGPT
【nanoGPT:用于训练/微调中型GPT的最简单、最快的代码库,minGPT的改进版】’nanoGPT - The simplest, fastest repository for training/finetuning medium-sized
复制链接 扫一扫
分享
预训练模型

170
评分
回复


[语言模型] ChatRWKV
ChatRWKV,类似ChatGPT 的开源工具,基于RWKV (100% RNN) 语言模型。RWKV 是作者魔改RNN而来,自我介绍为看齐transformer性能的纯RNN,梯度可以无限走,也能并行化,拥有RNN和transformer的所有优
复制链接 扫一扫
分享
预训练模型

95
评分
1


yolov 模型速查
官方资料 博文收集 Yolov5 系列1--- Yolo发展史以及Yolov5模型详解https://blog.csdn.net/g11d111/article/details/108845799 最新进展
复制链接 扫一扫
分享
预训练模型

76
评分
回复


chatGPT速查手册
ChatGPT Cheat Sheet.pdf 721.59K
复制链接 扫一扫
分享
预训练模型

317
5.0
4


【讨论】为什么国内有很多厂商和科研机构也做了很多大模型,但是最新的大模型带来的突破质变还是国外大厂的才有?
是否说明大模型的质变核心并不在于模型大?
复制链接 扫一扫
分享
预训练模型

126
评分
回复


一个好用的分词器、分句器、分段器还是很有用的
不知道大家有没做过分句器和分段器。
复制链接 扫一扫
分享
算法

107
评分
2


关于发现新词中字词“内部凝聚度”的问题。
根据传统的方法计算一个三字的内部凝聚度,有两种切分方式,取其中最小值作为内部凝聚度的衡量。但是为什么不直接采用全分割的方式计算呢?(在图片中标出)对于一个n字词,总是要计算n-1种分割取其中分割方式的最小值吗?
复制链接 扫一扫
分享
问题求助

410
5.0
1


十几种模型复现!文本分类相似度计算--tf/pytorch双版本
对初学者友好,十几种模型复现!文本相似度(匹配)计算,提供Baseline、训练、推理、指标分析...代码包含TensorFlow/Pytorch双版本
复制链接 扫一扫
分享
算法

93
评分
回复


情感词典相关资源汇总
* [大连理工大学-情感词汇本体-词典](http://ir.dlut.edu.cn/info/1013/1142.htm) * [BosonNLP-情感词典](http://static.bosonnlp.com/resources/BosonNLP_sentiment_score.zip) * [Chaoming Wang整理的情感词典](https://github.com/chaoming0625/SentimentPolarityAnalysis/tree/master/spa/f_d
复制链接 扫一扫
分享
数据

296
评分
回复


清华大学开放中文词库
http://thuocl.thunlp.org/ http://thuocl.thunlp.org/ THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点: 包含词频统计信息DF值(Document Frequency),方便用户个性化选择使用。 词库经过多轮人工筛选,保证词库收录的准确性。 开放更新,将不断更新现有词表,并推出更
复制链接 扫一扫
分享
数据

90
5.0
回复


NLP随笔(一)
20 世纪50 年代中期到80 年代初期的感知器,20世纪80 年代初期至21世纪初期的专家系统,以及最近十年的深度学习技术,分别是三次热潮的代表性产物 Gartner2018技术成熟度曲线,Gartner每年发布的技术趋势曲线,聚焦未来5到10年间,可能产生巨大竞争力的新兴技术 人工智能技术远未达到媒体所宣传的神通广大,无所不能。从图1中的技术发展现状也可一窥端倪。AlphaGo可以战胜最好的人类棋手,但却不可能为你端一杯水。著名机器人学者Hans Moravec早前说过:机器人觉得容易的,
复制链接 扫一扫
分享
算法

51
评分
回复


数据集|使用 43GB SQLite 文件的只读维基百科
Static.wiki – read-only Wikipedia using a 43GB SQLite file http://static.wiki/ Static.wiki 使用 43GB SQLite 文件的只读维基百科。
复制链接 扫一扫
分享
数据
为您搜索到以下结果:
556
社区成员
180
社区内容





自然语言处理(NLP)
自然语言处理实战,讨论算法、模型、服务、应用。请具体描述问题,提出问题。
复制链接 扫一扫

确定
社区描述
自然语言处理实战,讨论算法、模型、服务、应用。请具体描述问题,提出问题。 算法推荐算法人工智能 个人社区
加入社区
获取链接或二维码
- 近7日
- 近30日
- 至今
加载中
社区公告
自然语言处理实战。