gensim的LDA做文档主题分类的练习 模型加载和预测

主题模型是个无监督的学习方法
这里简单记录一下 用的lda 进行文档进行主题模型分类的一个小小的练习及其 预测
可以简单理解 lda就是训练2个分布 一个是文档到主题的分布概率 和主题到单词的分布概率 文档到单词的分布概率是一直的
不断挑战预期
具体理论细节可以参考这篇博客
代码实现训练主题模型
【gensim的LDA做文档主题分类的练习 模型加载和预测】"""LDA模型应用:一眼看穿希拉里的邮件我们拿到希拉里泄露的邮件,跑一把LDA,看看她平时都在聊什么 。首先,导入我们需要的一些库"""import numpy as npimport pandas as pdimport re"""然后处理邮件 读取数据 """df=pd.read_csv('./input/HillaryEmails.csv')#原邮件数据中有很多Nan的值,去掉df=df[['Id','ExtractedBodyText']].dropna()"""