江苏在线 - 江苏在线网
以后地位: 江苏在线 -> 科技

巴斯克地区大年夜学:一种强大年夜的用于完全无监督跨说话映照词嵌入的自进修办法

发布时间:2019年02月12日 17:58   来源:搜集整顿   关键词:
导读:你和“懂AI”之间,只差了一篇论文很多读者给芯君后台留言,说看多了相对简单的AI科普和AI办法论,想看点有深度、有厚度、有眼界……和重口味的专业论文。为此,在多位AI范畴的专家学者的赞助下,我们解读翻译了一组顶会论文。每篇论文翻译校订完...

你和“懂AI”之间,只差了一篇论文

很多读者给芯君后台留言,说看多了相对简单的AI科普和AI办法论,想看点有深度、有厚度、有眼界……和重口味的专业论文。

为此,在多位AI范畴的专家学者的赞助下,我们解读翻译了一组顶会论文。每篇论文翻译校订完成,芯君和编辑部的师长教员们都邑一路笑到崩溃,固然有的论文我们看得抱头痛哭。

同窗们如今看不看得懂没紧要,但芯君敢包管,你终有一天会是以爱上一个AI的新世界。

读芯术读者论文交换群,请加小编微旌旗灯号:zhizhizhuji。等你。

这是读芯术解读的第109篇论文

ACL 2018 Long Papers

一种强大年夜的用于完全无监督跨说话映照词嵌入的自进修办法

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

巴斯克地区大年夜学

University of the Basque

本文是来自巴斯克地区大年夜学发表于ACL 2018会议的文章,针对无监督跨说话映照词嵌入义务中初始化阶段中的缺乏,提出一种无监督的初始化办法,并结合一套强大年夜的自进修算法来逐步优化映照,在浩大的有名测试场景中停止实验,并超出了先前的监督体系,证清楚明了该办法的有效性。

1 引言

跨说话嵌入映照曾经被证明是双语词嵌入的有效办法。根本的想法主意是自力的应用不合说话练习嵌入单语语料库,然后经过过程线性变换将他们映照到共享空间。绝大年夜多半的嵌入式映照办法依附于小型种子字典,然则在比来对抗性的练习在完全无监督的情况中产生了较好的成果,但是先前的研究常常只能在接洽关系较为密切的说话中取得较好成果,当进入加倍实际的情形时却产生不出具成心义的成果。而后又有研究注解,迭代自进修办法可以或许从异常小的种子字典引导高质量的映照,然则现在始处理办法不敷好时,自进修办法会堕入较差的部分红果,招致练习掉败。

本文提出一种新的无监督办法来构建一个不须要种子字典的初始化处理筹划。根据不雅察成果,给出词汇表中一切单词的类似度矩阵,每个单词都有不合的类似性分布值。两个不合说话的等价词应当具有类似性的分布,本文基于这个现实来引诱初始的单词集配对。经过过程结合以上的初始化办法和强大年夜的自进修办法,可以从弱初始处理筹划开端并赓续迭代改进映照。终究,经过过程二者的结合,本文供给一套完全无监督的在实际场景中有效的跨说话映照办法,在一切的测试案例中都收敛到一个好的处理筹划,并在双语字典词典提取中设置了一种新的先辈技巧,超出了之前的监督办法。

2 模型

本文提出了一种新的无监督办法来构建一个不须要种子字典的初始处理筹划。基于不雅察,给定词汇表中一切单词的类似矩阵,每个单词都具有不合的类似值分布。在不合说话中的同一对词语应当具有类似的分布,可以以此作为根据来引导初始化单词配对,以下图所示。

文章将以上提到的初始化办法和一种结实的自进修办法结合,可以或许从弱的初始解开端,渐渐迭代改进映照。

· 参数表示

Z和X分别表示两种说话中自力练习好的词嵌入矩阵。行代表一个词的词向量,列代表词向量的第几维。这里中Xj和Zj之间、Xi和Zi之间并没有任何的对应关系。这时候就须要一个转换矩阵Wx、Wz来使XWx和ZWz在同一个向量空间。同时有论述矩阵D,Dij = 1时代表目标说话中的第j个单词是源说话中第i个单词的翻译。

· 成绩描述

针对以上的构思,须要完成:将X中的i行和Z中的i行、X中的j行和Z中的j行,停止对应。若何对D停止初始化并且要设置如何的更新战略、采取如何的目标函数,若何经过过程目标函数求出Wx和Wz 。

· 实施流程

A. 预处理

起首对每个单词的词向量做归一化,再对词向量的每列去均值,最后再停止一次归一化处理。

B. 初始化

起首停止假定,目标说话和源说话词向量固然是自力的,然则其分布的形状却非常类似。假定源说话和目标说话的字典大年夜小分歧,维度却不分歧。经过过程Mx = XXT、Mz =ZZT求类似矩阵,Mx[i,j]代表了target 说话中第i个和第j个单词的类似度,分别将Mx和Mz的每列次序变成Sorted(Mx)和Sorted(Mz),如许就处理了列之间的关系,关于sorted(Mx)的每i行,都可以再sorted(Mz)中寻觅到第j行跟其类似度最高的项,注解其是雷同语意的能够性比较大年夜,为相互的翻译,D的初始化成绩就被处理了。

C. 自进修:

1. 目标函数

求得Wx =U,Wz=V,且U与V经过过程奇怪值分化取得USVT = XTDZ。

在停止初始化后,轮回以上1.2步调,直至收敛。

· 随机字典归结

为了鼓励更广泛的摸索搜刮空间,我们使字典归结随机保存一些元素随机在具有概率的类似性矩阵中p,并将其他的设置为0。

· 基于频率的词汇cutoff

类似度矩阵的大年夜小相关于词汇表的大年夜小呈二次方增长。这不只增长了计算它的本钱,并且还使得能够的处理筹划的数量呈指数增长,能够会使优化成绩变得加倍艰苦。我们建议将字典归结过程限制为每种说话中k个最经常使用的单词,个中我们发明k = 20,000在实际中运作优胜。

· CSLS检索

Dinu等人注解比来邻居遭到hubness成绩的困扰。文章采取Conneau等人的跨域类似性部分缩放(CSLS)来处理此成绩。

· 双向字典归结

当字典从源说话被引入目标说话时,并不是一切目标说话单词都邑涌如今个中,并且一些将出现屡次。文章作者认为这能够会加重部分最优的成绩,为了减缓这个成绩并鼓励多样性,作者引入字典。从两个偏向归结字典,并停止照应的连接,D = DXZ + DZX。

3 实验分析

本文停止了周全的成果比较,取得了极其出色的数据表示。

下表展示了其采取的 Zhang et al和Coneau et a两个数据集的成果。

下表应用了加倍有挑衅性的来自 Dinu et al和Artetxe et al的数据集。

下表比较了与其他学者应用监督进修办法的抢先任务。

4 结论

成果注解,本文的办法在所无情况下都取得了成功,为之前关于无监督和监督映照的一切任务供给了最好成果。

融化分析注解,本文的初步处理筹划有助于在没有监督语料的情况下停止自学。为了使自进修才能稳健,我们还在字典归结中添加了随机性,应用CSLS而不是比来邻居,并生成了双向字典。应用较小的中心词汇表偏重新加权终究处理筹划,成果也取得了改良。

将来,欲望将办法从双语扩大到多说话筹划,并经过过程归并较长短语的嵌入来超出单词级别。

论文下载链接:

留言 点赞 发个同伙圈

我们一路分享AI进修与生长的干货

~全文停止~

分享到微信