学生构建人工智能工具振兴濒危土著语言

 6个月前     337  
学生构建人工智能工具振兴濒危土著语言

文章目录

最近获得计算机科学博士学位的Jared Coleman和他的导师Bhaskar Krishnamachari被人类和计算机对语言的共同热爱所束缚

Krishnamachari在印度长大,会说泰米尔语、印地语和英语,大学时开始学习法语和普通话。科尔曼从小说英语,高中时喜欢西班牙语,大学时从现在的妻子和朋友那里学习葡萄牙语

在疫情期间,科尔曼开始用一种鲜为人知的语言上网课:Owens Valley Paiute。Coleman是Owens Valley Big Pine Paiute部落的成员;他的父亲大卫在加利福尼亚州大松树的部落保留地长大,派尤特语是他的祖先语言

ChatGPT和其他大型语言模型(LLM)在许多英语自然语言任务中表现出人类水平的表现,因为世界上五分之一的人会说英语。其他广泛使用的语言也是如此。但派尤特语被认为是一种“无资源语言”,这意味着没有公开的派尤特句子被翻译成英语来训练机器学习模型

Coleman和Krishnamachari在预印本服务器arXiv上发表的一篇新论文《低资源/无资源语言的LLM辅助基于规则的机器翻译》中提出了一种称为LLM-RBMT(基于规则的机械翻译)的机器翻译方法,以帮助人们学习无资源语言。该论文的合著者是南加州大学多恩西菲分校语言学副教授Khalil Iskarous和独立研究员Ruben Rosales

他们的方法包括更“老派”的基于规则的翻译工具和更先进的、基于自然语言的LLM。在研究人员的方法中,LLM不会翻译成Owens Valley Paiute。相反,它有助于指导基于规则的翻译人员,他们依靠语法和词汇规则在语言之间进行翻译

翻译工具简化了复杂的句子,并使用占位符(在本例中为英语单词)表示未知单词。虽然这个过程失去了一些意义,但它仍然产生了可理解的、语法正确的翻译

Krishnamachari补充道:“这个工具足够聪明,只要有一些提示,就可以自己完成很多翻译。”

Coleman还构建并维护了一套与语言振兴有关的数字工具,名为Kubishi或Paiute中的“大脑”,包括一本在线词典、一个由这项研究启用的句子构建器和翻译系统

总的来说,这篇将在NAACL的AmericasNLP研讨会上发表的论文发现,LLM非凡的通用语言技能使其成为帮助振兴极度濒危语言的一个有前途的工具

个人满意

就科尔曼而言,他认为部落的过去和现在的成员为他铺平了道路。科尔曼说:“我部落的很多人长期以来一直致力于不同的语言振兴工作,包括课堂、词典和录音。”。“所以,我和我一样对这项研究感到兴奋,我知道这是一个更大难题的一部分。”

事实上,这篇论文为未来的工作指明了许多方向,包括添加更复杂的句子结构来测试他论文中概述的方法的局限性。除此之外,这对科尔曼来说既是个人成就,也是学术成就,他将于今年秋天加入洛约拉·玛丽蒙特大学,担任计算机科学助理教授

“我很幸运,我的曾祖父母与语言学家坐下来记录语言,并制作录音,这样我就可以听到他们的声音和话语。现在,听我的曾祖父说话,知道他在说什么,这让我个人非常满意。”

Indeed, the paper points to many directions for future work, including adding more complex sentence structures to test the limits of the methodology outlined in his paper. Beyond that, it's both a personal and academic achievement for Coleman, who will join Loyola Marymount University as an assistant professor in computer science this fall.

"My dad did not grow up speaking the language—like many families, it was forced out of use by boarding schools where speaking the language was forbidden," said Coleman.

"I'm lucky my great-grandparents sat down with linguists to document the language and to create recordings so I can hear their voices and words. And now, to listen to my great-grandfather and know what he is saying, there's something very personally satisfying about that."

想要了解更多关于脑机接口技术的内容,请关注脑机网,我们将定期发布最新的研究成果和应用案例,让您第一时间了解脑机接口技术的最新进展。

版权声明:Robot 发表于 6个月前,共 1984 字。
转载请注明:学生构建人工智能工具振兴濒危土著语言 | 脑机网

您可能感兴趣的

暂无评论

暂无评论...