从n-gram中文文本纠错，到依存树中文语法纠错以及同义词查找( 三 ) _同义词

文章插图
至于怎样利用已有知识，建立领域知识库，我们可以跑一遍正确的语料库数据集，统计那些语法正确的句子的依存树边... ...CGED那个比赛所给的训练集有点奇怪，这个也是导致比赛过程不理想没把依存树想法做出来的原因。我重新从网上找来了几个测试样例（语言学专业的课件PPT），我们来看一下再看如何拿依存树来做同义词聚类。利用依存树做语法侦错是有了，可是还要纠错呢，怎么实现一种纠错算法呢，当然是同义词替换了，会产生类错误一般都是同义词误用。我曾经拿HIT-IRLab-同义词词林（扩展版）对比，效果不是很好，所以就有了后来的同义词聚类想法。
依存树同义词查找
之前有接触过同义词聚类的论文，其中印象比较深刻的一篇是《using -based》，也就是ESA（）算法。ESA的主要思想就是，将一个Wiki词条看成一个主题概念，然后将词条下的解释文本先用TF-IDF逆文档频率过滤分词，再用倒排索引建立成（word-Topic），这样就可以构造主题向量，我们可以用这些主题向量来做语义相似度计算，完成同义词的查找。
但是这种工作对于我来说有点难以完成，后来在看平行语料库时，发现一样有意思的东西，就是上图中标成黄色的边，瞬间突发奇想，是不是可以拿这些依存边作为一个Topic，利用倒排索引建立主题向量，这样就可以造出一大堆丰富的原始特征，然后再找个算法作特征选择过滤，再完成同义词查找... ...
基于n-gram及依存分析的中文自动差错方法（马金山，刘挺，李生）
using -based
斯坦福大学自然语言处理第四课“语言模型（）”
自然语言处理 —— 让输入法变得更聪明
百度笔试题目剖析——拼写纠错
采用进行中文语法解析
使用
第五章 n-gram语言模型
编辑距离及编辑距离算法
-2.5.0.jar 免费下载最新版
利用维基百科计算语义相似度【多媒体论文阅读】
中文语法错误诊断评测CGED（ACL- ）