AI征服了物理奥运会! Wang Mengdi团队创建了物理超新星的智能身体,超过了人类金牌运动员的平均得分

AI征服了物理奥运会! Wang Mengdi团队创建了物理超新星的智能身体,超过了人类金牌运动员的平均得分

在主题能力领域,由于其复杂的问题和高推理力量,物理学长期以来一直是克服人工智能(AI)最困难的挑战之一。与语言任务相比,物理问题通常包括多个链接,以识别图像,单元的转换,方程式的推导和近似计算。这证明了系统是否能够理解和建模现实世界。随着IA继续加深现实世界,朝着共同的人工智能(AGI)和超级人工智能(如此)发展,了解世界并通过物理抽象解决问题正在成为建立高级智能系统的关键。在今年2025年的国际物理奥运会中,一个名为Physics Supernova的AI系统提供了令人惊讶的转录。他在三项理论测试中得分23.5分(30分),在406竞赛中占据了第14位在这三个问题中,蚂蚁进入了较高的人的10%,超过了平均得分。该系统是由普林斯顿大学及其合作者的王·门迪教授共同创建的。前两位作者是普林斯顿大学的Jiahao Qiu博士学位和Tsinghua Yao班级的高级Shi Jingzhe(在2021年国际物理学奥运会上赢得了金牌,并在世界上占了第10位)。链接中的链接:https://arxiv.org/abs/2509.01659与取决于问题的传统方法不同,物理Supernova提供了完整的理解问题的过程,直到通过图像分析,答案等工具模块进行建模和计算,并结合了LLM的优点功能。结果表明,Hereadyemable集成工具的代理体系结构可以显着改善AI的推论以及解决复杂科学问题的问题问题。他的表现接近最好的人类PLAYers并为AI在科学探索领域开辟了新的可能性。行业专家表示,结果不仅显示了人工智能在物理理解问题中的进步,而且还意味着已经重新定义了科学推理领域应用程序的限制。该工具的使用也将能够解决物理学家等问题。物理超新星是专门设计用于解决复杂物理问题的AI代理系统的系统。它基于Smolagents框架,并使用编码体系结构。与固定和手动编码的工作流程在解决数学问题方面常见的工作流不同,该系统强调具有灵活性的theautoplan容量,并根据问题解决的当前进度动态调用不同的工具。图| Supernova物理Supernova的推理轨迹研究团队已经组织了两个特殊的工具,以解决系统中的物理问题:图像分析仪和响应的修订。对于物理学家而言,解释实验结果并从图像中提取重要数据是非常重要的能力。在有关该部门的物理奥林匹克运动会的问题中,这甚至是解决问题过程中的中心链接。但是,当前的LLM仍然对视觉数据的精确度量(例如图形,图像和方案)具有不便。 Impeanalyzer将高分辨率图像传递给专用的视觉语言模型,以执行精确的数值阅读和测量任务。在实际解决方案中,物理学家继续评估理论结果在物理上很重要或违反了基本的物理原理,例如确定结果是否具有满足期望的物理特性。回复用于确定错误的类型并在解决问题期间找到错误的表达,从而提高了系统的自动化能力。为了研究最终分数中不同工具的影响,研究小组测试了各种工具组合。结果表明,对于大多数问题(尤其不是简单的问题),消除回答审稿人会大大降低绩效。留下脱粒分析仪执行的图像处理任务,以有效提高您的一般分数。该图将图像对齐工具的效果链接在理论问题的C部分,以及物理超新星和工具中,以回答有关专业领域知识的问题:Wolframalpha为科学问题和专业问题提供了精确的答案。计算机知识的引擎,有助于提高解决主要知识的系统的性能。金牌不是最终要点,AI物理系统中的下一站实验是物理研究的基础。研究人员指出,该研究主要关注iPho 2025的理论问题,而有些研究不涉及基于设备的实验问题,因为资源有限成分设备。他们希望机器人技术的发展使基于LLM的AI代理具有未来执行实验问题的能力。与物理团队的运作相比,程序实验可以模拟更复杂的实验过程,而基于Sofisticados程序的实验测试可以改变评估操作工具能力的方法,以了解理解和应用物理学的能力。从长远来看,基于工具的实验评估也是必不可少的。这种类型的实验更接近真正的科学研究状况,这使您可以更有效地测量AI系统的机器人能力,并在极端或意外的条件下评估性能。此外,使用响应审查工具查看派生过程。根据自然语言,该工具完全执行。在数学领域,自动验证已大大进行,允许LLM生成可验证的精益格式测试。但是,从自然语言问题开始,将出现物理表达式,并且自动验证当前是可分配的。这是一个仍然需要更多研究的地址。研究小组说,未来值得探索的指令应包括:如何验证公式,物理表征的抽象转换和直观的推理。建立一个更严格和可验证的物理计算系统。使用具有更广泛和更深入的物理知识的工具提高响应审查系统的能力。力量。总而言之,研究人员认为,在理解AI问题的系统中,未来的工作应继续扩大其程序性或工具实验的能力,同时提高其产生可验证和可靠的物理理解反应的能力。将来,这样的系统将会进一步发展,它们将被整合到现实世界中,WiLL成为能够执行复杂物理任务的复杂代理。汇编:Xiaoysi Ang需要重印或发送文章,将消息直接留给您的官方帐户。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注