复旦大学提出中文分词新方法,Transformer连有歧义的分词也能学

  • 日期:07-11
  • 点击:(1687)

免费三级

复旦大学提出了一种新的中文分词方法,变形金刚可以用模糊分词学习

复旦大学邱士鹏等研究人员提出了一种新的分词方法。只有一种能够覆盖多个分词标准的方法和最新的Transformer方法才是一个很好的中文分词方法。

从不同角度看汉语句子可能使中文分词任务(CWS)标准完全不同。例如,“冠军”可以被视为一个独立的单词,也可以被理解为“总”和“冠军”。过去,这种情况很难解决。我们只能定义一些词典或规则来加强这些词的划分。

但是这些应该是应该学习的分词模型,我们不仅可以在单一标准中专注于分词模型的表现,还需要注意不同分词标准的共同特征。这些共同特征是需要关注的模型,并且它们可以构建更合理的分词结果。

鉴于此,复旦大学提出了一种简单有效的模型,可以应用于各种中文分词标准。该模型使用共享的,完全连接的自我关注机制,允许基于不同标准的分词。

研究人员已经在八个数据集上测试了这种基于Transformer的中文分词,这些数据集自然地使用了多个分词标准。结果表明,与单一学习标准不同,每个语料库的表现都得到了显着提高。

论文:使用变压器的多标准中文分词

论文地址:

与英语不同,汉语句子由连续的汉字组成,词之间没有明显的分界线。由于单词被认为是最小的语义单位,因此中文分词任务非常重要。

目前,中文分词的最佳方法是监督学习算法。他们认为中文分词任务是一个基于汉字的序列标签问题。在这个问题中,每个汉字都有一个相应的标签,用于表示单词和单词之间的边界信息。

然而,构建高质量的中文材料存在两个挑战。首先,标签需要语言学家并且成本高昂。其次,基于不同的语言观点,有几个相互矛盾的分词标准。

3d767bda40014817b31f382e57d25e7c.jpeg

表1:不同分词标准的比较。

如表1所示,给出了“林丹获得冠军”的句子,在三个共同语料库中,北京大学人民日报语料库(PKU),宾夕法尼亚中文树图书馆(CTB)和微软亚洲研究院(MSRA)使用标签标准是不同。

大多数中文分词方法现在专注于提高单个分词标准的性能。如果不完全理解不同标准的语料库特征,这种研究是浪费资源。因此,如何有效地使用这些(语料库)资源仍然是一个具有挑战性的问题。

虽然中文分词的难度很大程度上归因于不同的标准,但幸运的是它们之间存在共识。从分词标准中学到的知识可以为其他语料库带来好处。

在本文的前期研究中,作者考虑了一个多标准的中文分词学习框架。具体而言,他们将每个分词标准视为多任务处理下的单独任务。在这个多任务学习框架中,共享层次结构用于提取在不同分词标准下不变的特征。同时,存在用于提取对应于不同分词标准的特征的内部级别。此内部层也是共享的,因为不同的标准经常重叠。

例如,在表1中,CTB和MSRA对“Lin Dan”一词具有相同的措辞标准,并且这三个标准与“获胜”的措辞一致。因此,不同的分词标准具有相同的知识,并且模型可以学习它们。

基于变压器的多标准中文分词

本文提出了一个简单的模型,可以从多个分词标准中分享知识,并可以应对多标准的中文分词任务。受Transformer的启发,研究人员设计了一个完全共享的结构。在模型中,共享编码器用于提取标准感知的上下文特征,而共享解码器用于预测特定于标准的标签。最后,他们使用5个简体和3个繁体中文语料库测试了8种不同的分词标准。实验表明,该模型可以有效地提高多标准分词中文任务的性能。

在邱锡鹏等研究人员的论文中,编码器和解码器可以共享所有的分词标准。唯一的区别是他们使用唯一的指标作为输入来区分不同的分词标准。下面的图1显示了研究人员提出的方法与之前的模型之间的差异。

6ac9c84fcc0047a6b14ba8f7e6d03558.jpeg

图1:用于单字分割标准和多字分割标准的体系结构,其中淡黄色模块由不同标准共享。

下面的图2显示了多标准中文分词模型的主要结构,它分为嵌入层,编码层和解码层。

f8cfbaf95b904880ba26c75c522bfc3c.jpeg

图2:研究人员提出的用于多标准中文分词的模型。

嵌入层:嵌入层的目的是映射某个向量。除了标准字符嵌入,研究人员还引入了三个附加信息:分词嵌入,位置嵌入和Bigram嵌入。分词标准嵌入用于指定所需的输出标准;二进制语法嵌入用于增强字符级嵌入的能力,以实现更强的分割效果;最终的位置编码是Transformer所需的位置信息。

编码层:编码层是Transformer,主要通过自注意机制和Multi-head Attention模块提取汉字的语义信息。

件随机场和多层感知器解码方法,发现CRF效果更好,因此它被用作默认解码层。

实验

从SIGHAN200到SIGHAN2008,实验选择了8个中文分词数据集。其中,AS,CITYU和CKIP是繁体中文数据集,而MSRA,PKU,CTB,NCC和SXU是简体中文。除非另有说明,AS,CITYU和CKIP首先从传统转换为简化。

表2提供了预处理后八个数据集的详细信息。整个实验使用标准评估方法 - 评估准确性,召回率和F1分数。

ef940257828a4edfb668d130a45e8f47.jpeg

表2:预处理后8个数据集的特定信息。 “单词类型”表示唯一单词的数量,“字符类型”表示唯一单词的数量。 “OOV Rate”表示集合外的单词百分比。

表5显示了该模型在八个测试集上的性能。

656c0ac9b43340a9ac98e88d91ffb292.jpeg

37dabb3366cd42d99a8a9cd7a20fa3af.jpeg

表5:模型在测试集上的性能。 P,R,F和OOV表示不在词汇表中的单词的准确度,召回率,F1分数和召回值。每个数据集的最高F1分数和OOV值已加粗。

下面的图3显示了8个不同分词标准的2D PCA降维结果,这些分析标准都是从本文的模型中学习的。我们可以看到,八个分词标准被映射到嵌入空间中的8个离散点,这表明每个分词标准是不同的。其中MSRA与其他分词标准最不同。可能的原因是MSRA将命名实体视为独立词,这与其他词分割标准非常不同。

3ad283122c154d298f4ab5607b31e47b.jpeg

看看更多