从n-gram中文文本纠错,到依存树中文语法纠错以及同义词查找( 三 )


从n-gram中文文本纠错,到依存树中文语法纠错以及同义词查找

文章插图
至于怎样利用已有知识,建立领域知识库,我们可以跑一遍正确的语料库数据集,统计那些语法正确的句子的依存树边... ...CGED那个比赛所给的训练集有点奇怪,这个也是导致比赛过程不理想没把依存树想法做出来的原因 。我重新从网上找来了几个测试样例(语言学专业的课件PPT),我们来看一下再看如何拿依存树来做同义词聚类 。利用依存树做语法侦错是有了,可是还要纠错呢,怎么实现一种纠错算法呢,当然是同义词替换了,会产生类错误一般都是同义词误用 。我曾经拿HIT-IRLab-同义词词林(扩展版) 对比,效果不是很好,所以就有了后来的同义词聚类想法 。
依存树同义词查找
之前有接触过同义词聚类的论文,其中印象比较深刻的一篇是《using -based》,也就是ESA()算法 。ESA的主要思想就是,将一个Wiki词条看成一个主题概念,然后将词条下的解释文本先用TF-IDF逆文档频率过滤分词,再用倒排索引建立成(word-Topic),这样就可以构造主题向量,我们可以用这些主题向量来做语义相似度计算,完成同义词的查找 。
但是这种工作对于我来说有点难以完成,后来在看平行语料库时,发现一样有意思的东西,就是上图中标成黄色的边,瞬间突发奇想,是不是可以拿这些依存边作为一个Topic,利用倒排索引建立主题向量,这样就可以造出一大堆丰富的原始特征,然后再找个算法作特征选择过滤,再完成同义词查找... ...
基于n-gram及依存分析的中文自动差错方法(马金山,刘挺,李生)
using -based
斯坦福大学自然语言处理第四课“语言模型( )”
自然语言处理 —— 让输入法变得更聪明
百度笔试题目剖析——拼写纠错
采用 进行中文语法解析
使用
第五章 n-gram语言模型
编辑距离及编辑距离算法
-2.5.0.jar 免费下载最新版
利用维基百科计算语义相似度【多媒体论文阅读】
中文语法错误诊断评测CGED(ACL- )