据外媒报道,哥伦比亚大学工程学院的研究人员推出一种计算机视觉技术,通过利用人、动物和物体之间的高层次关联,让机器对接下来会发生的事情有更直观的感知。
哥伦比亚大学计算机科学助理教授Carl Vondrick表示:“我们的算法使机器能够对人类行为做出更好的预测,从而更好地协调机器与我们的行为。此项研究结果为人机协作、自动驾驶汽车和辅助技术开辟了更多可能性。”
研究人员称,该算法是迄今为止,对视频内未来几分钟的动作事件预测的最准确的方法。在分析了数千小时的电影、体育比赛和“办公室(The Office)”等节目后,该系统学会了预测上百种活动,从握手到碰拳。而当系统无法预测具体的动作时,就会找到将动作联系起来的更高级别的概念,即“问候(greeting)”。
(图片来源:哥伦比亚大学)
过去在预测机器学习方面的尝试,包括团队尝试,都是一次只预测一个动作。算法决定是否将动作归类为拥抱、击掌、握手,甚至是“忽略”等非动作。但当不确定性很高时,大多数机器学习模型都无法找到可能选项间的共性。
哥伦比亚大学工程学院博士学生Didac Suris和Ruoshi Liu决定从不同的角度来看待更长期的预测问题。Suris称:“未来的一切并非都是可以预测的。当一个人无法准确预见会发生什么时,他们会谨慎行事并在更高的抽象层次上进行预测。我们的算法是第一个学习抽象推理未来事件能力的算法。”
因此,Suris和Liu重新研究古希腊数学问题。在高中,学生会学习熟悉且直观的几何原则:直线是笔直的,平行线永远不会交叉。而大多数机器学习系统也遵守这些原则。但是,其他几何图形具有奇异的、违反直觉的特性,如直线弯曲和三角形凸出。Suris和Liu使用这些不寻常的几何结构来构建AI模型,从而组织高级概念并预测未来的人类行为。
麻省理工学院(MIT)高级研究科学家、MIT -IBM沃森人工智能实验室(Watson AI Lab)联合主任Aude Oliva表示:“预测是人类智能的基础。人类永远不会犯的错误,机器会犯,因为它们缺乏我们抽象推理的能力。而这项工作是弥合这一技术差距的关键一步。”
研究人员开发的数学框架可以使机器能够根据事件在未来的可预测性组织事件。 例如,我们知道游泳和跑步都是锻炼的形式。而该新技术可学习如何自行对这些活动进行分类。系统可以识别不确定性,在确定时提供更具体的操作,并在不确定时提供更通用的预测。
研究人员说,这项技术可以让计算机更接近于评估环境并做出细微决定,而非预先编程的动作。该论文的共同主要作者Liu称:“这是在人与计算机之间建立信任的关键一步。信任来自机器人真正了解人的感觉,如果机器能够理解和预测我们的行为,计算机将能够无缝地协助人们进行日常活动。”
Vondrick说:“与之前相比,虽然新算法对基准任务的预测更准确,但接下来的步骤将验证该算法在实验室外是否有效。”研究人员说:“如果该系统可以在不同的环境中工作,那么就很有可能部署机器和机器人,从而改善我们的安全、健康和保障。”该小组计划继续使用更大的数据集和计算机以及其他形式的几何来提高算法的性能。Vondrick评论道:“人类的行为常常出乎意料。而我们的算法可以使机器能够更好地预测他们接下来要做什么。”
获取更多评论