方言翻译器在线语音 潮汕话翻译器在线发音


方言翻译器在线语音 潮汕话翻译器在线发音

文章插图
文章插图
闽南语识别系统界面 。
方言翻译器在线语音 潮汕话翻译器在线发音

文章插图
文章插图
一名女子正在手机上进行闽南话语音输入 。
用闽南语在手机语音中输入“爱必胜”,语音输入后屏幕上立即显示“爱必胜”字样 。最近,一款名为“闽南语识别”的软件在网上走红 。只要是日常会话句子,基本都能识别并翻译成单词,不管你说的闽南话是厦门口音、泉州口音还是漳州口音,识别准确率高达85% 。
该软件由厦门大学信息科学与技术学院副教授洪清扬和厦门大学人文学院中文系助理教授徐彬彬领导的研究团队开发 。目前这款软件已经进行了多阶段的内部测试,并面向广大公众免费试用 。
采访人员和几个同学分别用厦门口音、泉州口音、漳州口音的闽南话,输入软件语音:“今天天气很好 。”不到2秒钟,系统就翻译出了同样的对应文字 。采访人员也以稍有不同的方式将“今天天气不错”输入软件语音,系统仍能准确识别 。
近日,采访人员采访了软件背后的研究团队,为您揭秘软件开发过程 。
调查
从很多地方,甚至国外收集语音数据 。
首先,软件背后的语音数据库非常强大,是基于徐彬彬10年来的研究成果 。徐彬彬带领团队学习和整理了大量的语音材料——包括福建省厦门、漳州、泉州等地的闽南语方言和课文,甚至收集了国外很多讲闽南语的地方的语音材料 。
除了厦大的语音数据库,徐彬彬的团队每年寒暑假都会去各地进行实地调查 。“漳浦、东山等地 。在省内,以及菲律宾北部和美国东部的城市,每个地点至少要停留5天,尽可能全面地描述该地区的语音特征 。”她说 。
安排
标注每个音节的发音,输入不同的重音 。
有了丰富的“食材”,做这道“菜”就需要“配菜” 。为此,徐彬彬团队做了大量的收尾工作 。徐彬彬的电脑里存了很多文件 。"我现在有5台电脑和10个硬盘,里面都是闽南语的文件."徐彬彬说,闽南话有15-18个声母,73-90个韵母,5-8个声调,要一一整理,录入系统 。
不要以为只是简单的注解 。必须详细标注每个音节的发音和时长 。以“他们坐车去台北”为例 。徐彬彬标注了16个音素,音素要和发音时长一一对应 。而这只是一个句子的重音之一 。
徐彬彬告诉采访人员,仅厦门就有十几种细微的语音差异 。“思明区庐江街是一个口音,夏港街是另一个口音,海曙东府街口音接近漳州口音 。这些都要一一标注 。”她说,系统记录的不仅有厦门口音,还有泉州口音、漳州口音、潮汕口音 。
制作模型
收集10万条日常对话,邀请志愿者测试 。
为了使这套系统中的闽南语数据尽可能全面,洪清扬的团队又收集了近10万条闽南语日常对话,历时一年 。
除了徐彬彬提供的语音材料,在测试阶段,他们还邀请了数百名志愿者参与测试,让系统可以“学习”不同口音的闽南话 。在系统基本“学会”了不同口音的闽南话后,洪清扬又给系统增加了难度——既读正文,又读白字 。
闽南方言中存在大量的复音字,存在复杂的“自由读”现象 。以“大学”这个词为例,阅读方式有两种:自由阅读和自由阅读 。团队对闽南话的语音识别采用了有特定规则的发音词典,用改造后的算法建立了闽南话的语音识别模型 。