python财经数据接口工具_API数据接口_免费_数据采集_数据下载_文本挖掘

最近正在用nltk 对中文网络商品评论进行褒贬情感分类,计算评论的信息熵()、互信息(point)和困惑值()等(不过这些概念我其实也还理解不深...只是nltk 提供了相应方法) 。
我感觉用nltk 处理中文是完全可用的 。其重点在于中文分词和文本表达的形式 。
中文和英文主要的不同之处是中文需要分词 。因为nltk 的处理粒度一般是词,所以必须要先对文本进行分词然后再用nltk 来处理(不需要用nltk 来做分词,直接用分词包就可以了 。严重推荐结巴分词,非常好用) 。
中文分词之后,文本就是一个由每个词组成的长数组:[word1, word2, word3…… wordn] 。之后就可以使用nltk 里面的各种方法来处理这个文本了 。比如用 统计文本词频,用 把文本变成双词组的形式:[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)] 。
再之后就可以用这些来计算文本词语的信息熵、互信息等 。
再之后可以用这些来选择机器学习的特征,构建分类器,对文本进行分类(商品评论是由多个独立评论组成的多维数组,网上有很多情感分类的实现例子用的就是nltk 中的商品评论语料库,不过是英文的 。但整个思想是可以一致的) 。
另外还有一个困扰很多人的 中文编码问题 。多次失败后我总结出一些经验 。
解决中文编码问题基本可以用以下逻辑:
utf8(输入) ——> (处理) ——> (输出)utf8
里面处理的字符都是都是 编码,因此解决编码问题的方法是把输入的文本(无论是什么编码)解码为()编码,然后输出时再编码()成所需编码 。
由于处理的一般为txt 文档,所以最简单的方法,是把txt 文档另存为utf-8 编码,然后使用 处理的时候解码为(.('utf8')),输出结果回txt 的时候再编码成utf8(直接用str() 函数就可以了) 。
另外这篇文章也有很详细的讲到nltk 的中文应用,很值得参考:
1.NLTK
NLTK 在使用处理自然语言的工具中处于领先的地位 。它提供了这种方便处理词汇资源的接口,以及分类、分词、词干提取、标注、语法分析、语义推理等类库 。
网站
安装 NLTK: sudo pip-U nltk
安装 Numpy (可选): sudo pip-U numpy
安装测试:then typenltk
2.
拥有一系列的自然语言处理工具,比如说词性标注工具(Part-Of- ),N元搜索(n-gram ),情感分析( ),。它也支持机器学习的向量空间模型,聚类,向量机 。
网站:
安装:
pip
【python财经数据接口工具_API数据接口_免费_数据采集_数据下载_文本挖掘】3.
是一个处理文本数据的库 。它提供了一个简单的 api 来解决一些常见的自然语言处理任务,例如词性标注、名词短语抽取、情感分析、分类、翻译等等 。
网站:
安装:
pip-U
4.
是一个库,用于对大型语料库进行主题建模、文件索引、相似度检索等 。它可以处理大于内存的输入数据 。作者说它是“纯文本上无监督的语义建模最健壮、高效、易用的软件 。”
网站:
安装:
pip-U
5.
它的全称是: 自然语言处理库(,音发作: ) 是一个用于自然语言处理任务库 。它集合了各种独立或松散互相关的,那些常见的、不常见的、对NLP 任务有用的模块 。可以用来处理 N 元搜索,计算频率表和分布,建立语言模型 。它还可以处理向优先队列这种更加复杂的数据结构,或者像 Beam 搜索这种更加复杂的算法 。
安装:
LInux:sudo apt-getpymol
:yumpymol
6.spaCy
这是一个商业的开源软件 。结合了 和 优异的 NLP 工具 。是快速的,最先进的自然语言处理工具 。
网站:
安装:
pipspacy
7.
支持大规模多语言应用程序的处理 。它支持165种语言的分词,196中语言的辨识,40种语言的专有名词识别,16种语言的词性标注,136种语言的情感分析,137种语言的嵌入,135种语言的形态分析,以及69种语言的翻译 。
网站:
安装
pip
8.
是一个免费的、功能强大的、端到端的英文处理工具 。在输入原始英文文本,输出就会得到这段文本的语义解释 。它适用于信息检索和提取,请求处理,问答系统 。从英文文本中,它能提取出主动宾元组,形容词、名词和动词短语,人名、地名、事件,日期和时间等语义信息 。
网站:
~hugo//
9.BLLIP
BLLIP (也叫做 - )是一个集成了生成成分分析器和最大熵排序的统计自然语言分析器 。它包括命令行和接口 。
10.Quepy
Quepy 是一个框架,提供了将自然语言问题转换成为数据库查询语言中的查询 。它可以方便地自定义自然语言中不同类型的问题和数据库查询 。所以,通过 Quepy,仅仅修改几行代码,就可以构建你自己的自然语言查询数据库系统 。
网站
人工智能大数据与深度学习