计算机科学家引入一种新方法来缩小多语言模型的大小

多语言模型（MLM）是一种机器学习模型，可以从多种语言中预测、生成和提取文本。它们对跨语言交流、翻译等都很有用，但当它们只关注少数几种语言时，效果往往最好

随着语言模型越来越大，只要它们只在一种语言中运行，它们的性能就会提高。尽管增加了模型的大小，但由于“语言干扰”，添加更多的语言可能会破坏其性能，即控制其在一种语言中行为的模型的参数（或变量）会对其在另一种语言的性能产生负面影响

然而，约翰·霍普金斯大学的一个计算机科学家团队开发了一种新的方法来优化多种语言的MLM。他们的方法被称为“特定语言矩阵合成”，减少了模型在每种新语言中运行所需的参数数量

研究人员本周将在新加坡举行的2023年自然语言处理实证方法会议上介绍他们的工作

团队成员徐浩然（音译）解释道：“我们的重点是在使用更少参数的情况下实现可比性能，人类语言技术卓越中心的研究科学家，CLSP成员

与为传销中的每一种额外语言设计单独的密集神经网络（松散地模仿人脑工作的计算系统）的传统方法不同，该团队选择使用低阶矩阵，通过压缩数据来组织信息，以减少适应新语言所需的参数数量

这允许团队在不需要那么多参数的情况下添加新的语言，避免了徐所说的大规模“参数爆炸”

“给每个孩子一套完整的颜料来表达自己——或者用他们的语言执行任务——需要大量的颜料或模型参数。相反，如果你让他们只共享红色、黄色和蓝色，孩子们仍然可以创建全彩光谱，同时使用更少的颜料和更少的参数。由于一次只有一个孩子可以画画，所以所有100个孩子都可以共享单一的三色调色板，大大减少了参数需求。“

该团队在使用能够理解多达95种不同语言的模型进行的测试中证明，他们的方法在多语言环境中实现了卓越的性能，同时使用了更少的参数。至关重要的是，这可以在不影响其性能的情况下显着减小语言模型的大小。

由于部署所需的硬件需求减少该团队预测，一个较小的语言模型，一个使用特定语言矩阵合成方法的单一便携式人工智能应用程序，可能很快就能处理数百种语言，而不是少数语言

徐补充道：“我们的研究结果表明，在各种规模的设备中部署真正的多语言人工智能模型是可行的。”

研究人员表示，他们的目标是将他们的方法应用于笨拙的MLM，并开发出强大的人工智能系统，该系统可以理解多种语言，同时与英语一样有效。

技术

文章目录