新一代AI会“察言观色”了？

2020/07/28

一项可能预示着人工智能（AI）未来走向的技术已经问世。这项技术叫做“多模态AI”，可以像人类利用五感理解周围事物那样，通过图像、语音和文字等多种数据作出高水平的判断。AI更加接近人类、给社会各个领域带来影响的未来即将到来。

“您吃饭了吗？”“您按时吃药了吗？”可爱的机器人一边跟老奶奶聊天一边询问。虽然老人有时回答得模糊不清，有时只是默默点头，但新AI可以机智地察觉情况，判断出“没有问题”。

这是日本内阁府实施的项目一环，由KDDI及日本情报通信研究机构推进由AI看护独居老人等的研究。其目标是能够通过每天的对话来发现老人的细微异常变化。

重要的是，新AI不仅可以理解对话的内容，还可以通过视频察觉动作和感情的变化。如果可以感知体温，就“可以保护老年人免受新冠病毒的侵袭”（日本情报通信研究机构研究员鸟泽健太郎）。

如果是人类的话，即使对方嘴上逞强说“我很好”，也可以根据脸色不佳而察觉出对方“可能有烦心事”等。过去的AI可以对图像、语音和文字进行分析，但不具备察言观色的能力。多模态AI被认为将打破这一壁垒。

AI的概念诞生于上世纪50年代。虽经历了研究衰退的寒冬时期，但一直在进步。2012年左右开始受到关注的深度学习技术，擅长通过相机拍摄的图像来理解世界。以该技术为契机，掀起了AI热潮，图像识别精度等获得飞跃性的提升。这种情况甚至被比喻为“寒武纪大爆发”，即约40亿年前出现的生命在5亿年前有了眼睛并快速进化。AI让曾经被视为梦幻技术的汽车自动驾驶等一下子具有了现实意义。

目前，AI技术已经进入新的进化阶段。以前只具备视觉能力的AI、只具备听觉能力的AI，正在变成兼具视觉和听觉的AI。运用AI技术提供经营支持的日本初创企业Stockmark首席商务工程师岩谷纯至评价称，“多模态AI无疑是AI的新一代核心技术”。该公司已开始将多模态AI运用到营业辅助工具中。

多模态AI展现能力的未来已近在咫尺。日本大成建设和AI开发企业ExaWizards制造的AI机器人正具备接近人类五感的感受能力。

AI从人类的动作中学习了处理不同黏性液体的方法。根据摄像头拍摄的视频、液体重量、机械臂的角度等，掌握了相关技巧，可以比人类更灵巧地将准确计量的液体从瓶子倒入烧杯中。

机器人能够正确计量不同黏度的液体（照片由大成建设提供）

如果是黏稠的液体，即使快速倒入也不容易洒出来。而像自来水那样清爽的液体，如果一下子倒入，就比较容易倒得太多而溢出。这一点人类可以凭感觉判断出来，但对于以前的AI而言则很困难。于是，大成建设等企业采用了多模态AI技术。无论是有泡沫的肥皂水，还是黏稠的松饼面糊，倒起来都不费劲。这种技术有望在制药厂和食品加工厂等发挥作用。

预计多模态AI的应用范围今后将进一步扩大。NTT Data打算有效利用多模态AI进行商标等的调查。AI可以根据图片和解说文字两种信息来确认过去是否出现过类似商标。AI未来有望根据视频和对话内容自动记录医院手术室的治疗过程。

在美国IBM和麻省理工大学（MIT）设立的“MIT-IBM Watson AI Lab”正在致力于最先进的多模态AI的研究，这项新技术在全球受到关注。

有观点认为，2045年将迎来AI的能力超越人类智能的“奇点”（Singularity）。现在的AI被称为“弱人工智能”，具备的能力有限，但在特定领域已经表现出了超越人类智力的性能，比如打败顶尖围棋手等。多模态AI确实是AI的进化形态之一，未来会实现怎样的发展呢？这种技术的巨大潜力正在挖掘之中。

日本经济新闻（中文版：日经中文网）生川晓

相关新闻