新一代AI会“察言观色”了?
2020/07/28
一项可能预示着人工智能(AI)未来走向的技术已经问世。这项技术叫做“多模态AI”,可以像人类利用五感理解周围事物那样,通过图像、语音和文字等多种数据作出高水平的判断。AI更加接近人类、给社会各个领域带来影响的未来即将到来。
“您吃饭了吗?”“您按时吃药了吗?”可爱的机器人一边跟老奶奶聊天一边询问。虽然老人有时回答得模糊不清,有时只是默默点头,但新AI可以机智地察觉情况,判断出“没有问题”。
这是日本内阁府实施的项目一环,由KDDI及日本情报通信研究机构推进由AI看护独居老人等的研究。其目标是能够通过每天的对话来发现老人的细微异常变化。
![]() |
重要的是,新AI不仅可以理解对话的内容,还可以通过视频察觉动作和感情的变化。如果可以感知体温,就“可以保护老年人免受新冠病毒的侵袭”(日本情报通信研究机构研究员鸟泽健太郎)。
如果是人类的话,即使对方嘴上逞强说“我很好”,也可以根据脸色不佳而察觉出对方“可能有烦心事”等。过去的AI可以对图像、语音和文字进行分析,但不具备察言观色的能力。多模态AI被认为将打破这一壁垒。
AI的概念诞生于上世纪50年代。虽经历了研究衰退的寒冬时期,但一直在进步。2012年左右开始受到关注的深度学习技术,擅长通过相机拍摄的图像来理解世界。以该技术为契机,掀起了AI热潮,图像识别精度等获得飞跃性的提升。这种情况甚至被比喻为“寒武纪大爆发”,即约40亿年前出现的生命在5亿年前有了眼睛并快速进化。AI让曾经被视为梦幻技术的汽车自动驾驶等一下子具有了现实意义。
目前,AI技术已经进入新的进化阶段。以前只具备视觉能力的AI、只具备听觉能力的AI,正在变成兼具视觉和听觉的AI。运用AI技术提供经营支持的日本初创企业Stockmark首席商务工程师岩谷纯至评价称,“多模态AI无疑是AI的新一代核心技术”。该公司已开始将多模态AI运用到营业辅助工具中。
多模态AI展现能力的未来已近在咫尺。日本大成建设和AI开发企业ExaWizards制造的AI机器人正具备接近人类五感的感受能力。
![]() |
AI从人类的动作中学习了处理不同黏性液体的方法。根据摄像头拍摄的视频、液体重量、机械臂的角度等,掌握了相关技巧,可以比人类更灵巧地将准确计量的液体从瓶子倒入烧杯中。
![]() |
机器人能够正确计量不同黏度的液体(照片由大成建设提供) |
如果是黏稠的液体,即使快速倒入也不容易洒出来。而像自来水那样清爽的液体,如果一下子倒入,就比较容易倒得太多而溢出。这一点人类可以凭感觉判断出来,但对于以前的AI而言则很困难。于是,大成建设等企业采用了多模态AI技术。无论是有泡沫的肥皂水,还是黏稠的松饼面糊,倒起来都不费劲。这种技术有望在制药厂和食品加工厂等发挥作用。
预计多模态AI的应用范围今后将进一步扩大。NTT Data打算有效利用多模态AI进行商标等的调查。AI可以根据图片和解说文字两种信息来确认过去是否出现过类似商标。AI未来有望根据视频和对话内容自动记录医院手术室的治疗过程。
![]() |
在美国IBM和麻省理工大学(MIT)设立的“MIT-IBM Watson AI Lab”正在致力于最先进的多模态AI的研究,这项新技术在全球受到关注。
有观点认为,2045年将迎来AI的能力超越人类智能的“奇点”(Singularity)。现在的AI被称为“弱人工智能”,具备的能力有限,但在特定领域已经表现出了超越人类智力的性能,比如打败顶尖围棋手等。多模态AI确实是AI的进化形态之一,未来会实现怎样的发展呢?这种技术的巨大潜力正在挖掘之中。
日本经济新闻(中文版:日经中文网)生川晓
版权声明:日本经济新闻社版权所有,未经授权不得转载或部分复制,违者必究。