导读:顶会,尤其是国际顶会,因其在业界的巨大影响力,是企业和个人的实力试金场。被顶会录用的论文,代表的是对该领域具有重大意义的研究成果。
国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称 ACL)是自然语言处理(NLP)领域的顶级国际会议,网易云商 AI 技术组与上海交通大学林洲汉老师研究组关于 Transformer 方向的论文被大会 Findings 录用,技术实力耀眼国际舞台。
文 | AI 技术组
网易云商
ACL:NLP 领域最负盛名的国际顶会之一
ACL 到底有多牛?我们或许可以从三个维度来感受一下。
从 1963 年召开第 1 届会议,到 2023 年已经是第 61 届,走过半个多世纪,ACL 已经成长为了计算语言学和自然语言处理领域最高级别、最负盛名的学术会议,每年都会吸引来自世界各地的顶尖学者、研究者、工程师和企业家参加。
NLP 被誉为“人工智能皇冠上的明珠”,一方面表明了它的重要性,另一方面也显现出了它的技术难度。ACL 每年都会开放关于计算语言学和 NLP 领域的投稿,投稿量逐年攀升,但平均录用率只在 25% 上下,2012 年仅为 19%。能被 ACL 录用的论文都是精品中的精品,兼具创新性、科学性、实用性、可读性。
此外,ACL 是中国计算机学会(CCF)推荐的 A 类国际学术会议。
论文主题:提出一种新的 Fourier Transformer 结构
那么,网易云商的这篇论文研究了什么主题?它凭什么在众多论文中突出重围?
Transformer 作为 AI 的基础模型在 NLP、CV、Speech 等场景下有广泛应用,是业界共识。但是,Transformer 存在 self-attention 计算复杂度高和信息冗余严重的问题。针对此问题,网易云商 AI 技术组与上海交通大学林洲汉老师研究组共同开展研究。
Transformer 模型因为自注意力模块对于序列长度的时间和空间复杂度呈现二次关系,因而在长序列情况下需要大量的计算资源,成本高昂。许多研究人员致力于设计新形式的自注意力,或者引入新参数以克服这一限制,但是很多此类方法不支持模型从大型预训练模型中继承权重,这导致这些新方法无法在 LLM 时代大范围使用,因为大多数机构没有资源去进行从零开始的训练。在这项工作中,我们从另一个角度解决了 Transformer 的低效性。我们提出了 Fourier Transformer,这是一种简单而有效的方法,通过利用成熟算法快速傅立叶变换(FFT)运算符来执行离散余弦变换(DCT)来消除隐藏序列中的冗余。Fourier Transformer 能够显著降低计算成本,同时仍然具备从各种大型预训练模型继承的能力。实验证明,我们的模型在速度和空间上都有显著改进。
上图是我们提出的 Fourier Transformer 的模型架构图。
在 Transformer 的各层之间我们加入了 spectral filters。spectral filters 的内部我们使用 DCT 和 IDCT 来对序列长度进行下采样。多个 spectral filters 可以协同发挥作用,将 Transformer 层分割成不同的 block,即逐渐减少序列长度。我们保留自注意力机制以保留其继承预训练模型权重的能力。
Spectral filters 自身包括三个步骤,即 transform(变换)、truncate(截断)和 reverse(反转)。严格地来说,对于一个包含 N 个 hidden vectors 的输入隐藏序列{hn},0 < n < N − 1,spectral filters 首先通过 1D-DCT 将其转换成频域:{yk} = DCT({hn}),0 < k < N − 1。注意 DCT 是独立应用于 {hn} 中的所有维度,因此只在时间维度上进行变换。接下来,{yk} 通过截断高频端的尾部维度进行截取。对于不同长度的序列,我们固定一个超参数 r ∈ (0, 1) 来确定保留的频率分量的数量。因此,{yk} 的长度从 N 截断到 ⌈rN⌉。最后,产生的较短序列 {yk},0 < k < ⌈rN⌉ − 1 可以通过 IDCT 转换回时间域,得到较短的 {h˜n}:{h˜n} = IDCT({yk}),0 < n < ⌈rN⌉ − 1。同样,IDCT 也只在时间维度上进行,所产生的较短的 hidden states 传递到神经网络的上一层。
根据任务类型的不同,接下来模型的架构也会有所不同。
encoder-only 架构:对于仅使用编码器的任务(如文本分类),期望编码器的最终输出是一个固定大小的向量,然后将其输入逻辑回归以进行类别概率预测。在这项工作中,虽然模型是从头开始训练的,但我们仅仅是对整个输出序列进行平均池化以得到这个向量;否则,当模型继承自预训练模型的 [CLS] 标记时,我们会使用该标记的嵌入。
encoder-decoder 架构:对涉及编码器和解码器的语言生成任务,解码器的每个步骤都会关注编码器状态的编码器-解码器注意力。然而,编码器-解码器注意力需要精细的位置分辨率才能很好地工作。因此,我们遵循之前的方法,将较短的序列上采样返回其原始长度,并在将它们输入解码器之前将所有块中的上采样隐藏序列相加。更具体地说,我们使用无参数最近邻插值进行上采样,并在添加上采样序列后重新对序列进行归一化。
由于 DCT 存在可逆反应操作 IDCT,我们提出的模型在超参 r 增加的趋势下会无限接近 vanilla Transformer。下图显示,当直接在 BART 预训练模型的权重上进行微调时,该模型在截断高达 70% 的频率成分时表现良好。然而,由于上采样和上采样序列的加法仍与原始 Transformer 有所不同,我们可以通过施加少量额外的预训练来进一步提高模型性能。这种额外的预训练比从头开始的定制预训练更有利,后者可能需要大量的计算资源。
举个例子,我们的模型在 BART-Large 上进行额外预训练需要大约 10GB 的数据,在 2 个 NVIDIA A100 GPU 上大约需要 4 天时间,而从头开始对 BART 进行预训练则需要大约 160GB 的数据,在相同的设备上大约需要 1000 天。与从头开始的定制预训练相比,利用 BART 的权重进行进一步预训练需要少两个数量级的计算资源,同时仍然能够使模型达到类似或甚至更好的性能。
实验部分,我们对于 encoder-only 架构和 encoder-decoder 架构分别进行了全面的比较。对于 encoder-only 架构我们使用了 LongRange Arena (LRA) benchmark。LRA 旨在评估长上下文情况下 transformer 的效率,输入序列长度范围从 1K 到 8K 不等。LRA 的数据集来源广泛,包括自然语言、图像像素、数学表达式等等。具体而言,它们包括:
ListOps:一个数学表达式的数据集,要求模型计算长度最多为 2K 的数学表达式的输出值。
Text:一个字节颗粒度级别的文本分类任务,固定序列长度为 4K,需要模型处理组合性。
Retrieval:一个字节颗粒度级别文档检索任务,最大长度为 8K,测试模型压缩长序列的能力。
Image:一个图像分类任务,要求模型通过顺序阅读像素来学习输入像素之间的 2D 空间关系。序列长度固定为 1K。
Pathfinder:一个合成图像分类任务,固定输入长度为 1K,需要模型捕捉长距离的空间依赖性。
对于 encoder-decoder 架构,我们选择了两个长文本数据集,用于总结和问答任务,即 CNN/DailyMail 和 ELI5,平均序列长度分别为 0.8K 和 5K。
CNN/DailyMail 是一个包含超过 28 万篇新闻文章(平均 766 个词)的摘要数据集,这些文章来自 CNN 和 Daily Mail 网站,并配有人工生成的摘要(平均 53 个词)。我们根据 Rouge 分数(Rouge-1、Rouge-2、Rouge-L)的表现进行评估。
ELI5 是一个问答数据集,包含超过 27 万个复杂、多样化且段落长度的问答对,这些问答对来自 Subreddit,输入和目标的平均词数分别为 5140 和 693。我们根据 Rouge-L 和 F1 分数进行评估。
上图是实验结果。在表 3 中,我们提出的 Fourier-BART 成功地利用了 BART 的优势,在进一步微调的基础上,实现了与预训练模型相当的性能。在微量的进一步预训练过程中,它实现了在所有竞争对手中最佳的性能。需要注意的是,Fourier-BART 是建立在 BART 之上的,并且与 BART-400M 拥有相同的模型大小,但计算量要少得多,同时它能够以明显的优势胜过标准的 BART-400M。
在表 4 中,我们的模型与 LayerDrop、E-MCA、c-REALMS、EMAT 和 KID 进行比较。为了公平比较,BART-large 的结果是我们在 fairseq 的最新版本上复现的,远高于原始 BART 论文中报告的结果。请注意,我们甚至在比较中使用了性能敏感的模型,因为列表中只有 EMAT 和 LayerDrop 专注于降低复杂性。如表 4 所示,我们的 Fourier-BART-FP 在 Rouge-L 和 F1 得分上均超过了所有竞争模型。关于效率,在去除 70% 的频率成分时,标准 BART 所需的 FLOP 是 Fourier-BART 的 1.9 倍。
总结一下,在这项创新工作中,我们引入了离散余弦变换,通过利用 Transformer 模型中较高层之间隐藏状态的局部相关性,逐步对隐藏状态进行下采样。这种新方法能够显著减少 vanilla Transformer 所需的计算量,并且保持在各种任务中实现更好的性能与效果。此外,它能够继承与复用预训练模型权重,与大多数改进 Transformer 相比,这是显著优势。
是学院派更是实践派
在学术方面,网易云商展现了 AI 头雁的实力,在具体的应用上,网易云商也早已注入各个场景,进行落地开花,让企业和消费者获益于 NLP。
网易云商旗下七鱼智能客服产品是 NLP 技术在服务场景的落地成果,自 2016 年4月发布以来,已经累计服务 40 万家企业,连接 8 亿用户,机器人累计咨询接待量 46.8 亿,平均意图识别准确率达到 96%,平均问题匹配率达到 95%,平均问题解决率达到 90%,远超行业水平。
网易云商旗下智能外呼产品是 NLP 技术在营销场景的落地成果,破解传统呼叫产品声音机械、反应迟钝、答非所问、频繁骚扰等问题,打造有温度、更智能、更懂人心的人机对话体验,极大提高了营销效率和效果,助力企业高效深挖存量用户价值。
兼顾学术研究和场景需求,是学院派更是实践派,探索 AI 技术,网易云商持续在路上。