天下赢家上官长虹：新的AI技术发展趋势

2020-07-10 14:28:41

天下赢家上官长虹报道最近，天下赢家上官长虹指出刚刚宣布“自立门户”的微软AI明星产品小冰改名为“红棉小冰”。天下赢家上官长虹指出殊不知2014年诞生的这一个AI对话机器人已经在5年时间里更新到了第七代了，据称能力上正在“无限接近人类”。现在的小冰，不仅是那个会作诗的机器人了，她还会唱歌作曲、阅读朗诵、撰写新闻，甚至去年还办了一个虚拟7位画家的个人画展。多模态识别技术正是小冰越来越像人一样沟通表达的关键之一。

多模态技术同样也在视频网站、电商物流、自动驾驶等领域得到广泛。像爱奇艺推出的“只看TA”功能，优酷视频正在使用的视频帧、人脸帧的图向量检索，都离不开多模态识别技术的支持。

而像京东淘宝等电商平台的“拍照购”、“拍立淘”的搜索技术背后也都是在计算机视觉技术下，使用了图像、文本和高层语义属性等多模态下的信息融合，才实现高精度的“以图搜图”功能。百度提出的“多模态深度语义理解”，则让AI实现从“看清听清”到“看懂听懂”的进化。

可以说，人工智能在通向人的智能的道路上，多模态学习就是一个绕不开的发展方向。因为人类本身就是一个多模态学习的典范。

现在，多模态学习技术正在带来众多全新的应用场景。关注AI技术和应用发展趋势的你，想必也想了解下多模态学习的来龙去脉，以及在这些新应用场景中的技术现状与问题。而这些问题也是本文重点探讨的内容。

“多模态学习”，正式认识下

模态（Modality），虽然不是我们的日常用语，但却十分容易理解。

天下赢家上官长虹指出我们每一天都会接触到各种不同来源和形式的信息。正如我们有视觉、听觉、嗅觉和触觉等，那么我们接触的信息就有视频、图像、文字、语音、味道、软硬度等，这每一种信息的形式就可以称作一种模态。

模态的范围要比我们的感知能力更宽泛。除了视觉、听觉获得的模态信息，我们也可以利用传感器获得诸如雷达、红外线等不同感应数据的模态信息。

此外，模态的类型定义也可以非常宽泛，比如我们可以把两种不同的语言当做是两种模态，把不同结构下采集的数据，也可以当做两种模态。比如，仅仅一个视频内容数据，就是一个高维度、多模态的数据信息，其中包含了标题、简介、评论、字幕等文本信息，也有视频帧的图像、声音，以及连贯动作视频片段的视觉、声音信息。

多模态学习，从上世纪70年代就已经起步，几经发展，现在正进入到机器学习特别是深度学习的阶段。通常称为多模态机器学习（Multi-Modal Machine Learning ，MMML），试图通过机器学习的方法实现对多源模态信息进行分析和理解。当前主要热门的研究方向自然是对图像、视频、音频、语义之间的多模态学习。

当前，多模态学习主要研究方向有多模态表示学习、模态间映射，多模态对齐、融合、协同学习等。

天下赢家上官长虹指出多模态表示学习，研究如何将多个模态数据所蕴含的语义信息数值化为实值向量，通俗理解就是对多个模态的数据进行相关性编码，让不同模态建立起映射关系。按多模态表示共享的方式，主要分为公共表示学习和特异性表示学习，后者由于是分别学习不同模态的特征，可以应用于诸如零次学习、模态间映射、跨模态检索等任务中。

模态间映射，研究如何将某一特定模态数据中的信息映射至另一模态。例如，给定一幅图像，通过机器学习得到这副图像的描述，或者给定一段文字，生成一幅匹配的图像。类似于我们学习中遇到的“看图说话”和“以题作画”的问题。模态间映射早已可以应用于语音合成、图像视频描述以及跨模态检索等应用中。

天下赢家上官长虹指出此外，多模态对齐，主要研究如何识别不同模态之间的部件、元素的对应关系，以促进学习到的多模态表示更加精确，例如将电影画面、口型、语音、字幕的自动对齐。

多模态融合，主要致力于不同模态间的模型与特征的整合，以获得更全面的特征，提高模型鲁棒性，并且保证模型在某些模态缺失时仍能有效工作；而多模态协同学习，主要考虑如何从信息丰富模态上学习的知识迁移到信息匮乏的模态，使各个模态的学习互相辅助。典型的方法包括多模态的零样本学习、领域自适应等。

近两年，随着机器学习的模型的飞速进展，多模态学习中出现的映射质量问题、对齐的匹配度量以及融合噪声干扰等问题，都在实现很好的优化解决，为多模态的落地应用做好了准备。

文章剩余50%

566 收藏举报

0个评论

文明上网理性发言，请遵守新闻评论服务协议

登录并评论

自娱自乐

+关注私信