R语言LDA、CTM主题模型、rjags 吉布斯gibbs采样文本分析论文摘要、通讯社数据
主题模型允许对文档中的术语频率发生进行概率建模。拟合模型可用于估计文档之间以及一组指定关键字之间的相似性,这些关键字使用称为主题的额外潜在变量。R 包主题模型提供了基于文本挖掘包 tm 中的数据结构拟合主题模型的基本基础结构。关键词: 吉布斯采样, R, 文本分析, 主题模型在统计软件杂志(JSS)的摘要集合中进行了演示。为了结果的可重复性,我们仅使用截至2010-08-05发表的摘要,并省略摘要中包含非ASCII字符的摘要。最终数据集包含 348 个文档。