<small id='2kFsf4qW'></small> <noframes id='IuWFz1ek'>

  • <tfoot id='BIns6h9'></tfoot>

      <legend id='mWneIg'><style id='wPl7vI'><dir id='aCXVGh'><q id='bTF9Pyo8Yp'></q></dir></style></legend>
      <i id='dnTM'><tr id='JYZ5VbO'><dt id='DKYm'><q id='XfYOD'><span id='xdlA'><b id='ojyd'><form id='seOS'><ins id='ovRN4'></ins><ul id='fB3D'></ul><sub id='TtUhKkI0'></sub></form><legend id='SKrhsBwd'></legend><bdo id='hYjRUO'><pre id='w7yCKNIaSo'><center id='jCNTb0qz5'></center></pre></bdo></b><th id='N7WruMf05D'></th></span></q></dt></tr></i><div id='KuIe'><tfoot id='9TLSWqamdX'></tfoot><dl id='uvNmS0G9'><fieldset id='big6'></fieldset></dl></div>

          <bdo id='fLVZO2dzpR'></bdo><ul id='BTYXrgUQw'></ul>

          1. <li id='CXr87UL4B'></li>
            登陆

            竞彩小章鱼 彩票大师-怎么可视化BERT?你需求先了解神经网络的言语、树和几许性质

            admin 2019-06-15 222人围观 ,发现0个评论

            选自GitHub

            作者:Andy Coenen等人

            言语的结构是离散的,而神经网络则根据接连数据运作:高维空间中的向量。成功的言语处理网络有必要要能将言语的符号信息转译为某种几许表征——可是这种表征该是怎样的办法呢?词嵌入供给了两种闻名的示例:用间隔编码语义类似度,特定的方向则对应于极性(比方男性与女人)。

            近段时刻,一个激动人心的发现带来了一种全新类型的表征办法。关于一个语句的言语信息中,一大要害部分是其句法结构。这种结构能够标明成树,其节点对应于语句的词。Hewitt 和 Manning 在论文《A Structural Probe for Finding Syntax in Word Representations》中标明某些言语处理网络能够构建这种句法树的几许副本。词是经过在一个高维空间的方位给定的,而(遵循必定的改换)这些方位之间的欧几里德间隔映射了树间隔。

            但这一发现还伴随着一个很风趣的谜题。树间隔与欧几里德间隔之间的映射不是线性的。相反,Hewitt 和 Manning 发现树间隔对应于欧几里德间隔的平方。他们提出了疑问:为什么必需平方间隔,是否存在其它或许的映射。

            这篇文章将为这个谜题供给一些潜在的答复。咱们将从数学视点标明:树的平方间隔映射是特别天然的。乃至某些随机化的树嵌入也将遵守近似的平方间隔规律。此外,仅仅知道平方间隔联系,就能让咱们简略明晰地描绘树嵌入的全体形状。

            竞彩小章鱼 彩票大师-怎么可视化BERT?你需求先了解神经网络的言语、树和几许性质

            咱们会在一个网络(BERT)中剖析和可视化实在国际的嵌入以及它们与其数学抱负办法(mathematical idealizations)的体系性差异,以对这些几许观念进行弥补阐明。这些实证研讨将供给用于考虑神经网络中句法表征的新的定量办法。

            假如你要将一个树(tree)嵌入到欧几里德空间中,为什么不直接将树间隔对应于欧几里德间隔呢?一个原因是:假如这个树有分支,则无法完结等间隔扩展。

            图 1:你无法在确保间隔不变的一起将这个树嵌入到欧几里德空间中

            事实上,图 1 中的树便是一个规范示例,标明并非一切衡量空间都能够等间隔地嵌入到 R^n 中。由于 d(A,B)=d(A,X)+d(X,B),所以在恣意嵌入中 A、X 和 B 都是共线的。根据同一逻辑,A、X 和 C 也是共线的。但这就意味着 B=C,这是对立的。

            毕达哥拉斯嵌入(Pythagorean embeddings)

            相反,平方间隔嵌入实践上要好得多——它是如此好用以至于有专属称号。这个姓名的因由将在后边介绍。

            令 M 为一个衡量空间,其衡量为 d。假如关于一切 x,y∈M,咱们有

            ,就说 f:M→R^n 为一个毕达哥拉斯嵌入。

            图 1 中的树有毕达哥拉斯嵌入吗?有的:如图 2 所示,咱们能够将各个点分配到一个单位正方体的附近极点,毕达哥拉斯定理(即勾股定理)就能供给咱们想要的作用。

            图 2:在单位正方体的极点上的一个简略毕达哥拉斯嵌入

            其它小型的树又怎么呢,比方四个极点构成的链?这也能在正方体的极点中有很好的毕达哥拉斯嵌入。

            图 3:四个极点构成的链也有在单位正方体的极点上的毕达哥拉斯嵌入

            定理 1.1

            任何有 n 个节点的树都有在 R^(n-1) 中的毕达哥拉斯嵌入。

            证明。

            注:咱们注意到与定理 1.1 的证明类似的论据也出现在 Hiroshi Maehara 的「有限衡量空间的欧几里德嵌入」中:https://doi.org/10.1016/j.disc.2013.08.029

            令树 T 的节点为 t_0,...,t_(n−1),其间 t_0 为根节点。令 {e_1,...,e_(n−1)} 为 R^(n-1) 的正交单位基向量。经过归纳,界说一个嵌入 f:T→R^(n−1):

            给定两个不同的树节点 x 和 y,m 是它们的树间隔 d(x,y),则咱们可运用 m 个相互笔直的单位步从 f(x) 移动到 f(y),因而:

            看待这种构建办法的一个视点是:咱们为每条边分配了一个基向量。为了得到节点的嵌入,咱们走回到根并将咱们经过的边的一切向量加起来。见下图。

            图 4:左:将基向量分配给边。中:两个示例嵌入。右:平方的间隔等于树间隔。

            补白

            这个证明的价值不仅仅证明存在这个作用,并且是在明晰的几许构建中存在这个作用。同一个树的任何两个毕达哥拉斯嵌入都是等间隔的——并且经过旋转或反射而存在相关,由于两者之中一切点对之间的间隔都相同。所以咱们说关于树的毕达哥拉斯嵌入,该定理向咱们阐明晰其切当容貌。

            此外,定理 1.1 中的嵌入也有一个明晰的非办法化的描绘:在图的每个嵌入极点,一切衔接附近极点的线段都是单位长度的线段,且与互相和其它每条边线段正交。看一下图 1 和图 2 就能发现它们满意这种描绘。

            也能够轻松地看到,证明中构建的特定嵌入是一个 ℓ1 衡量的树等距映射(tree isometry),尽管这十分依赖于轴对齐。

            咱们也能够对定理 1.1 进行稍微的泛化。考虑边有权重的树,两个节点之间的间隔是它们之间的最短途径上边的权重的和。在这种状况下,咱们也竞彩小章鱼 彩票大师-怎么可视化BERT?你需求先了解神经网络的言语、树和几许性质总是能够创立毕达哥拉斯嵌入。

            定理 1.2

            任何有 n 个节点的加权的树都有在 R^(n-1) 中的毕达哥拉斯嵌入。

            证明。

            和前面相同,令树 T 的节点为 t_0,...,t_(n−1),其间 t_0 为根节点。令 {e_1,...,e_(n−1)} 为 R^(n-1) 的正交单位基向量。现在令 w_i=d(t_i,parent(t_i))。经过归纳,界说嵌入 f 为:

            注:定理 1.2 的嵌入不再坐落单位超立方体上,而是在其一个压扁的版别中:边长为

            咱们能够索引这个树的边,其间每条边的索引都与在该边上的子节点相同。令 P 为 x 与 y 之间的最短途径上边的索引的调集,则

            定理 1.2 中嵌入尽管是轴对齐的,但在 ℓ1 衡量方面不再是等间隔映射。可是,假如咱们运用向量 w_ie_i 而不是

            ,那么咱们就能够康复 ℓ1 等间隔映射。

            Hewitt 和 Manning 问是否还有其它有用的树嵌入类型,或许是根据欧几里德衡量的其它幂。咱们能够供给一些有关这些嵌入的部分定论。

            界说

            令 M 为一个衡量空间,其衡量为 d。设假如关于一切的 x,y∈M,都有

            ,则咱们说 f:M→R^n 是幂为 p 的嵌入。

            注:关于欧几里德空间中的嵌入的一般性问题的更多解说,请参阅这篇美丽的概述:https://arxiv.org/pdf/1502.02816.pdf 和这个有用的书本章节:http://www.csun.edu/~ctoth/Handbook/chap8.pdf

            尽管运用的姓名各不相同,但一般衡量空间的幂为 p 的嵌入已被研讨了数十年。这方面的奠基作业是 Schoenberg 1937 年的论文:https://www.jstor.org/stable/1968835。该论文的一个要害作用用咱们的术语说来便是:假如一个衡量空间 X 有在 R^n 中的幂为 p 的嵌入,那么关于恣意 q>p,它也有幂为 q 的嵌入。因而当 p>2 时,恣意树都总是有幂为 p 的嵌入。而 p=2 的状况则很不相同,咱们还没有一种用于描绘这种嵌入的几许性质的简略办法。

            另一方面,当 p<2 时,事实证明幂为 p 的树嵌入乃至不必定存在。

            定理 2

            关于恣意 p<2,存在「没有幂为 p 的嵌入」的树。

            证明进程请参阅咱们的论文(这儿也有另一个证明:https://www.sciencedirect.com/science/article/pii/S0012365X13003841)。总结来说,关于恣意给定的 p<2,没有满足的「空间」来嵌入带有满足多子节点的节点。

            毕达哥拉斯嵌入的性质十分稳健,至少在维度远大于树规划的空间中是这样。(举个比方,这便是咱们的言语处理神经网络的鼓励示例的状况。)在上面的证明中,除了运用基向量 e_1,...,e_(n−1) ∈R^(n−1),咱们本能够从 R^m 的单元高斯分布中彻底随机地选出 n 个向量。假如 m≫n,那么作用有很高的或许性会是近似的毕达哥拉斯嵌入。

            原因是在高维空间中,(1)来自单位高斯分布的向量的长度有很高的或许性十分挨近于 1;(2)当 m≫n 时,一组 n 个单位高斯向量将很有或许挨近于互相正交。

            这种构建乃至能够经过一个迭代进程完结,仅需「部分」信息。运用彻底随机的树嵌入进行初始化,再为每个极点选取一个特别的随机向量;然后在每个过程移动每个子节点,使其更挨近其父节点加该子节点的特别向量。其作用会是近似的毕达哥拉斯嵌入。

            毕达哥拉斯嵌入很简练,并且它们源自部分随机模型,这阐明它们在表征树方面或许是遍及有用的。要注意,树的巨细受场景的维度所操控,它们或许是根据双曲几许竞彩小章鱼 彩票大师-怎么可视化BERT?你需求先了解神经网络的言语、树和几许性质的办法的低技能代替办法。

            注:更多有关双曲树表征的常识请参阅《Hyperbolic Embeddings with a Hopefully Right Amount of Hyperbole》:https://dawn.cs.stanford.edu/2018/03/19/hyperbolics/ 或 Nickel & Kiela 的《Poincar Embeddings for Learning Hierarchical Representations》:https://arxiv.org/abs/1705.08039

            咱们研讨的对象是 BERT 模型,这是近期一种针对天然言语处理的成功模型。咱们对这一模型感兴趣的一大原因是其在许多不同使命上都体现优秀,这阐明其能够提取出遍及有用的言语特征。BERT 根据 Transformer 架构。

            注:BERT 布景:这是谷歌博客的介绍:https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html ;这儿还有一篇很棒的总结:https://towardsdatascience.com/bert-explained-state-of-the-art-language-model-for-nlp-f8b21a9b6270。还有许多论文剖析了这些网络,比方《BERT Rediscovers the Classical NLP Pipeline》:https://arxiv.org/abs/1905.05950。

            咱们这儿不会详细描绘 BERT 架构,仅仅简略说一下该网络的输入是词序列,经过一系列层之后能为其间每个词得到一系列嵌入。由于这些嵌入考虑了上下文,所以它们常被称为上下文嵌入(context embedding)。

            人们现已提出了许多描绘句法结构的办法。在依存语法中,每个词都是树的一个节点,如下图所示。

            许多人都研讨过这些嵌入,以了竞彩小章鱼 彩票大师-怎么可视化BERT?你需求先了解神经网络的言语、树和几许性质解它们竞彩小章鱼 彩票大师-怎么可视化BERT?你需求先了解神经网络的言语、树和几许性质或许包括什么信息。归纳来说,咱们研讨树嵌入的动机是 Hewitt 和 Mannsouping 的近期作用。他们的论文《A Structural Probe for Finding Syntax in Word Representations》标明上下文嵌入好像以几许办法编码了依存解析树。

            但有一点要注意:首要你需求经过一个特定的矩阵 B(即所谓的结构探针(structural probe))对这个上下文嵌入进行改换。但在此之后,两个词的上下文嵌入之间的欧几里德间隔的平方挨近两个词之间的解析树间隔。这便是前一节的数学核算发挥成效的当地。用咱们的术语说,这个上下文嵌入挨近一个语句的依存解析树的毕达哥拉斯嵌入。这意味咱们对树嵌入全体形状有很好的认知——便是简略地源自平方间隔性质和定理 1.1。

            当然,咱们并不切当知晓其形状,由于该嵌入仅仅近似的毕达哥拉斯嵌入。但抱负形状和实践形状之间的差异或许十分风趣。试验中的嵌入和它们的数学抱负办法之间的体系性差异或许能为 BERT 处理言语的办法供给进一步的头绪。

            注:PCA 能得到比 t-SNE 或 UMAP 更可读的可视化。当点在一个低维流形上聚类或涣散时,非线性办法的作用或许最好——基本上与 n-立方体的极点相反。

            为了研讨这些差异,咱们发明了一种可视化东西。咱们的论文给出了详细状况,这儿只供给些概述。该东西的输入是带有相关的依存解析树的语句。该软件会从 BERT 提取出该语句的上下文嵌入,经过 Hewitt 和 Manning 的「结构探针」矩阵的改换,得到一个在 1024 维空间中的点集。

            然后,咱们经过 PCA 将这些点映射到二维。为了展现其底层的树结构,咱们衔接了标明有依存联系的词的点对。下图 5 展现了一个样本语句的作用。为了比较,还给出了一个准确毕达哥拉斯嵌入、随机分支的嵌入、节点坐标彻底随机的嵌入的相同数据的 PCA 投影。

            图 5:PCA 视图。a)BERT 解析树嵌入。b)准确毕达哥拉斯嵌入。c)不同的随机分支嵌入。d)节点方位是随机地独立挑选的不同嵌入。该图的交互式版别请拜访原文。

            PCA 投影现已很风趣了——BERT 嵌入和抱负办法之间有显着的类似性。图 5c 展现了一系列随机分支的嵌入,也类似于 BERT 嵌入。图 5d 是基线,展现了一系列词是随机地独立放置的嵌入。

            但咱们还能够更进一步,展现嵌入不同于抱负模型的办法。鄙人面的图 6 中,每条边的色彩标明欧几里德间隔与树间隔之间的差。咱们也用虚线衔接了没有依存联系但方位(在 PCA 之前)比预期的近得多的词对。

            图 6:在应用了 Hewitt-Manning 探针后两个语句的嵌入的可视化。在每一对图画中,左图是传统的解析树企图,但每个分支的竖直长度标明嵌入间隔。右图是上下文嵌入的 PCA 投影,其间的色彩标明违背预期间隔的程度。该图的交互式版别请拜访原文。

            所得到的图画既能让咱们看到树嵌入的全体形状,也能让咱们看到离实在毕达哥拉斯嵌入的违背程度的细粒度信息。图 6 给出了两个示例。它们都是典型的状况,展现了一些常见的主题。图中,橙色虚线衔接了 part/of、same/as竞彩小章鱼 彩票大师-怎么可视化BERT?你需求先了解神经网络的言语、树和几许性质、sale/of。这个作用很有特色,能够看到介词嵌入的方位与它们所相关的词出人意料地近。咱们还能够看到蓝色标明的两个名词之间的衔接,这阐明它们比预期的更远——另一个常见形式。

            文末的图 8 展现了这些可视化的更多示例,你能够进一步检查这些形式。

            根据这些调查,咱们决议更体系地研讨不同的依存联系将或许怎么影响嵌入间隔。答复这一问题的一种办法是考虑一个大型语句集并测验词对之间的均匀间隔是否与它们的句法联系存在任何相关。咱们运用一个 Penn Treebank 语句集以及派生的解析树执行了这个试验。

            图 7:给定的依存联系下,两个词之间的平方边长的均匀

            图 7 展现了这一试验的作用。作用标明每个依存联系的均匀嵌入间隔的改变规模很大:从大约 1.2(compound : prt, advcl)到 2.5(mwe, parataxis, auxpass)。研讨这些体系性差异的意义是很风趣的。或许或许运用加权的树,BERT 的句法表征有优于一般依存语法的其它定量方面。

            总结

            神经网络表征言语信息的切当办法仍然仍是一个谜。但咱们现已开端看到了有吸引力的头绪。Hewitt 和 Manning 的近期研讨为解析树的直接的几许表征供给了依据。他们发现了一种风趣的平方间隔效应,咱们以为这反映了一种数学上天然的嵌入类型——这能为咱们供给一种惊人完好的嵌入几许思维。与此一起,对 BERT 中解析树嵌入的试验研讨标明或许还有更多常识有待开掘,还有在解析树表征的更多定量方面有待探究。

            图 8:其它解析树示例;阐明见图 6。该图的交互式版别请拜访原文。

            原文链接:https://pair-code.github.io/interpretability/bert-tree/

            声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
            请关注微信公众号
            微信二维码
            不容错过
            Powered By Z-BlogPHP