您的位置: 首页 » 学术领域 » Meta的新算法可以使人工智能进行多任务学习

Meta的新算法可以使人工智能进行多任务学习

作者令狐冲 文章浏览量: 134 次

1月 28, 2022

如果你能通过视觉认出一只狗,那么当你听到用语言向你描述一只狗的时候,你也许就能认出它了。对于今天的人工智能来说,情况并非如此。深度神经网络已经变得非常擅长辨认照片中的物体和用自然语言对话,但不能同时进行——有人工智能模型擅长其中一个,但不是两个都擅长。

部分问题在于,这些模型使用不同的技术学习不同的技能。这是发展具有多任务适配性的更通用的人工智能和机器过程中的一个主要的障碍。这也意味着一项技能在深度学习方面的进步通常不会转移到其他技能上。

Meta AI(之前的Facebook AI研究)的一个团队想要改变这种状况。研究人员已经开发出一种算法,可以用于训练神经网络来识别图像、文本或语音。这个名为Data2vec的算法不仅统一了学习过程,而且在所有三种技能方面的表现与现有技术相比一致甚至更好。“我们希望它能改变人们对这类工作的看法,”Meta AI研究员Michael Auli说。

这项研究建立在一种被称为“自监督学习”的方法上,神经网络学习自己在数据集中识别模型,而不需要被打上标签的实例来指导。这就是像GPT-3这样的大型语言模型是如何从互联网上搜集大量未标记的文本中学习的,它推动了深度学习领域的许多最新进展。

Auli和他在Meta AI的同事一直致力于语音识别的自监督学习,但是,当他们看到其他研究人员在图像和文本的自监督学习中所做的工作时,他们意识到他们都在使用不同的技术来追求同一目标。

Data2vec使用两个神经网络,一个“学生”和一个“老师”。首先,老师网络以通常的方式对图像、文本或语音进行训练,学习这些数据的内部表征,使其能够预测当出现新的实例时它所看到的内容。当它看到一张狗的照片时,它会认出这是一只狗。

问题的关键在于学生网络被训练来预测老师的内部表征。换句话说,它被训练不去猜测它是否正在看一张狗的照片,而是去猜测老师看到这张照片时看到了什么。

因为学生并不试图猜测实际的图像或句子,而是老师对图像或句子的表示,所以算法不需要针对特定类型的输入进行裁剪。

Data2vec融入了人工智能模型学习以多种方式理解世界的这个大趋势。“这是一个聪明的想法,”在西雅图艾伦人工智能研究所从事视觉和语言研究的Ani Kembhavi说。“在通用学习系统方面,这是一个很有前景的进展。”

值得注意的是,尽管相同的学习算法可以用于不同的技能,但它一次只能学习一种技能。一旦它学会了识别图像,它必须从头开始学习识别语音。同时给予人工智能多种技能是困难的,但这正是Meta AI团队下一步想要研究的。

研究人员惊奇地发现,他们的方法实际上在识别图像和语音方面比现有的技术表现得更好,并且在理解文本方面与一流的语言模型表现得一样好。

马克·扎克伯格已经开始构想潜在的元宇宙应用。“它们最终都将内置在AR眼镜配备的人工智能助手中,”他今天在Facebook上发帖说。“它可以帮助你做饭,注意到你是否遗漏了一种原料,提示你调低温度,或者一些更复杂的事情。”

对Auli来说,主要的意义在于研究人员应该摆脱他们的束缚。“嘿,你不需要专注于一件事情,”他说。“如果你有一个好主意,它实际上可能对所有方面都有帮助。”

上一篇:

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注