直击WAIC | 图灵奖得主约书亚・本吉奥：欺骗和自我保护行为在强模型中更加明显

访客007 5小时前阅读数 2 #新闻热榜

专题：2025世界人工智能大会

　　2025世界人工智能大会（WAIC 2025）于7月26-28日在上海举办。图灵奖得主约书亚・本吉奥表示，人工智能的规划推理能力有望在10年内达到人类水平。

　　他提醒，若缺乏坚实防护措施，强大的人工智能系统可能放大现有风险，如虚假信息、网络攻击和生物威胁等。更令人担忧的是，人类可能失去对自我保护型智能体的控制，这些智能体认知能力或将很快超越人类。即便风险很小，超级智能与人类竞争也可能带来灾难性后果，甚至导致人类灭绝。

　　他强调，只要科学界仍有相当比例认为这种情况可能发生，就必须保持最高警惕。目前尚无科学验证方法确保人工智能可信且始终遵从人类意图。更糟糕的是，欺骗和自我保护行为在最强模型中似乎更加明显。

直击WAIC | 图灵奖得主约书亚・本吉奥：欺骗和自我保护行为在强模型中更加明显

　　新浪声明：所有会议实录均为现场速记整理，未经演讲者审阅，新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

在网站建设过程中，我们引用了来自互联网以及 AI 生成的部分资源。若用户发现网站内容存在侵犯自身权益的情况，可联系我们，我们将在接到通知后的三日内对相关内容进行删除处理。
此外，网站内容可能存在错误，用户需自行甄别，本网站对相关错误不承担责任。

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。