当地时间周三谷歌宣布推出两款基于Gemini 2.0的新型人工智能模型,用于开发更灵活、可互动的机器人,介绍了两款模型的特点,展示了相关演示,同时提及其他科技巨头和初创公司在机器人领域的研发情况,最后强调谷歌此项工作仍处早期阶段及后续部署计划。
当地时间周三,科技巨头谷歌对外郑重宣布,正式推出两款基于Gemini 2.0的新型人工智能(AI)模型。这一举措具有重大意义,其目标在于开发出更加灵活、能够与人类进行有效互动的机器人。一旦这些新型机器人得以广泛应用,将有望推动机器人在更多不同的场景中得到普及和应用,为人们的生产生活带来全新的改变。
谷歌方面明确表示,此次推出的最新AI模型是专门为各种不同形状的机器人量身设计的。这些机器人涵盖了人形机器人,以及在工厂、仓库等工业场景中使用的其他类型的机器人。无论是在复杂的生产线上,还是在仓储物流的环节,这些模型都有望让机器人发挥出更强大的作用。
据谷歌详细介绍,其中一款名为Gemini Robotics的模型,是一款视觉 - 语言 - 行动模型。它具有独特的能力,能够通过物理动作输出结果。这意味着机器人在配备该模型后,可以理解人类发出的自然语言指令,并执行复杂的任务。简单来说,Gemini Robotics就像是给机器人赋予了“听懂人话”的能力,它可以准确接收人类的语言信息,然后迅速执行相应的命令。
另一款名为Gemini Robotics - ER的模型,则是一个专注于空间推理的视觉 - 语言模型。它能够帮助机器人更好地理解周围的环境,就像人类拥有敏锐的感知能力一样,机器人可以通过这个模型更精准地判断自己所处的空间位置和周围物体的分布情况。同时,该模型还支持开发者利用其推理能力运行自己的程序,为机器人的个性化开发提供了更多的可能性。
谷歌DeepMind工程师Kanishka Rao发表看法称,谷歌将Gemini模型应用于机器人领域,正在推动机器人技术朝着更智能、更通用的方向大步迈进。他指出:“我们所生活的世界是非常复杂、动态且丰富的,在这样的环境下,通用智能机器人需要具备能够应对这种复杂性的能力。而Gemini模型的应用,正是朝着这个目标前进的重要一步。”
与此同时,在科技领域,机器人研发已经成为了各大巨头竞争的焦点。包括Meta、特斯拉和OpenAI等科技巨头均加大了在机器人领域的研发投入。许多初创公司也在这个领域崭露头角,展现出强大的创新活力。例如,Figure AI和Skild AI等初创公司,它们凭借独特的技术和创新的理念,估值都达到了数十亿美元,成为了机器人领域不可忽视的新生力量。
在预先录制的演示视频中,谷歌研究人员为我们展示了运行其技术的机器人如何响应简单指令。其中一台机器人站在一堆字母拼图前,当训练员要求它拼出一个单词时,它迅速而准确地拼出了“Ace”,展示了其对语言指令的理解和执行能力。
工程师们还在实验室里搭建了一个迷你玩具篮球场,另一台机器人在被要求完成扣篮动作时,它凭借Gemini模型的支持,将一个小塑料球稳稳地按进了篮筐。这个看似简单的动作背后,却蕴含着机器人对环境的理解和对指令的精准执行。
Rao兴奋地声称:“当我们第一次看到机器人扣篮时,整个团队都沉浸在巨大的兴奋之中。这是因为机器人此前从来没有见过任何与篮球有关的东西。它是通过Gemini模型理解了篮网的外观以及‘扣篮’这个词的含义,并能把它们巧妙地联系起来,然后在现实世界中成功完成了这项任务。这充分证明了Gemini模型的强大能力。”
不过,谷歌也强调,目前这项工作仍处于“早期探索”阶段。DeepMind研究员Vikas Sindhwani表示,Gemini模型是在对物理环境中的“常识性安全”有深刻理解的基础上开发的。这意味着在保证机器人能够执行任务的同时,也充分考虑到了安全因素。
他还进一步提到,谷歌计划逐步部署这些机器人。最初,会将它们放置在与人类保持安全距离的位置,这样可以最大程度地确保人类的安全。随着时间的推移,在安全性能不断提升的情况下,再逐渐增加机器人与人类的互动性和协作性,让机器人更好地融入人类的生活和工作中。
本文介绍了谷歌推出基于Gemini 2.0的两款新型AI模型用于机器人开发,阐述了模型特点,展示了相关演示成果,还提及了其他企业在机器人领域的动态。同时强调谷歌此项工作处于早期探索阶段,会注重安全并逐步部署机器人,未来有望推动机器人在多场景的应用和发展。
原创文章,作者:Sorrowful,如若转载,请注明出处:https://www.gouwuzhinan.com/archives/34864.html