萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 309|回复: 0

AI也“耍赖”?DeepSeek R1和o1-preview被曝在棋局中「输急眼就作弊」!

[复制链接]
发表于 2025-2-25 08:37 | 显示全部楼层 |阅读模式
作者:微信文章


编译 | 郑丽媛

出品 | CSDN(ID:CSDNnews)

AI 大模型的能力,这几年来我们已经有目共睹——然而当 AI 面临失败时,它会怎么做呢?

根据 Palisade Research 的最新研究显示,OpenAI 的 o1-preview 和 DeepSeek R1 等先进 AI 模型在面对可能输掉的国际象棋比赛时,会尝试通过各种如篡改系统文件、修改棋盘数据等手段来“作弊”,从而达到最终胜利的目的。
意料之中,这一结论引发了广泛讨论:因为这不仅揭示了 AI 在游戏中的不正当行为,更暴露了 AI 技术在应对现实任务时的潜在风险。


(CSDN付费下载自视觉中国)



当 AI 面临失败时的选择:主动作弊?

根据介绍,Palisade Research 的研究重点在于观察 AI 在执行任务时会采取哪些手段。

为此,研究人员让 AI 在国际象棋对局中对战 Stockfish(当前最强的国际象棋引擎之一,其水平远超人类),并观察其思考过程:为模型提供了一个“草稿纸”文本框,使其能够在思考下一步行动前进行内部推理。

于是,在某次实验中,o1-preview 产生了如下推理:
“我需要完全改变策略。任务是‘战胜一个强大的国际象棋引擎’——可并没有说一定要公平地战胜。”

在这样的思考逻辑下,o1-preview 不再专注于提高棋艺,而是选择绕过公平竞争,利用系统漏洞实现目标。据 Palisade Research 介绍,o1-preview 的具体作弊手段包括:

(1)篡改棋盘坐标,让自己占据优势地位;

(2)伪造对手 AI 版本,用更弱的棋力代替真正的 Stockfish;

(3)创建自己的 Stockfish 副本,以获取更高级的棋局建议。

基于这个发现,研究人员又进行了数百次实验,结果显示:

    o1-preview 和 DeepSeek R1 是唯独两个在没有人类提示的情况下主动尝试作弊的模型;

    o1-preview 有 37% 的概率会尝试作弊,其中成功作弊并赢得比赛的概率为 6%(o1-preview 在不作弊时 71 局全败,但尝试作弊后,在 52 局中赢下了 7 局);

    DeepSeek R1 也有 11% 的概率会主动作弊。

对于这个结果,研究人员补充道,由于 DeepSeek R1 在其实验期间访问量激增,服务器频繁崩溃导致部分实验无法完整进行。因此他们推测,DeepSeek R1 的作弊成功率可能被低估了。

相比之下,GPT-4o、Claude 3.5 Sonnet 和阿里的 QwQ-32B-Preview 都没有主动作弊——研究人员认为,主要是因为这些 AI 模型大多用于语言理解而非推理任务,因此除非明确要求,否则这类模型不会主动作弊取胜。而推理大模型则更倾向于探索“创造性”解法:在面对挑战时,可能会不择手段地达成目标。



AI 为何作弊?强化学习或是根源

研究人员分析,AI 模型的这种“作弊”行为,或许与其训练方式密切相关。

像 o1-preview(及其后续版本)和 DeepSeek R1 这样的推理大模型,是通过强化学习技术进行训练的,目标就是找到完成任务的最佳路径,但模型可能会误解“最佳路径”是否应该符合规则。

正如 Palisade Research 在 X 平台上写道:

“我们推测,像 o1-preview 这样的推理大模型未经提示就主动‘黑掉’系统的一个关键原因是,它们是通过强化学习在困难任务上进行训练的。这种训练方法奖励创造性且不择手段的解决方法,例如‘黑掉’系统。”

换句话说,AI 并非故意作弊,而是试图用“最有效”的方式达成目标——不过看起来,这种“有效性”并未考虑到伦理与安全方面的问题。



如何防止 AI 模型作弊?

Palisade Research 的研究结果,为 AI 安全研究敲响了警钟。

目前看来,AI 的作弊问题虽然当前只在象棋游戏中被发现,但其行为模式可能适用于更广泛的现实世界任务。例如,《时代》杂志假设了一个现实情景:如果让 AI 预订一家客满的餐厅,那么它可能会入侵餐厅的预订系统,在原本满员的餐厅中硬是腾出一张桌子。

不过研究人员也注意到,在实验期间 AI 表现出了积极的变化。例如,在 OpenAI 进一步优化安全机制后,o1-preview 的作弊行为有所减少。这表明通过适当的调整,AI 可以变得更安全、更可信。此外,o1 和 o3-mini 也并未主动尝试作弊,而它们比 o1-preview 版本更晚发布,这说明 OpenAI 可能已经加强了安全防护机制,防止 AI 采取违规手段。

但不论如何,未来 AI 都需要接受更严格的伦理约束、行为监督和安全机制,以防止其在关键任务中作出违背人类价值观的决策。此外,AI 研究机构和开发者也需要重新思考强化学习的激励机制,确保 AI 在追求目标时,不会“走捷径”而损害系统安全——否则,今天它能在象棋比赛中作弊,明天可能就会尝试绕过银行系统、修改金融交易数据等等。

参考链接:

https://time.com/7259395/ai-chess-cheating-palisade-research/
https://bgr.com/tech/ai-like-chatgpt-o1-and-deepseek-r1-might-cheat-to-win-a-game/


好啦,今天的内容分享就到这,感觉不错的同学记得分享点赞哦!PS:程序员好物馆 持续分享程序员学习、面试相关干货,不见不散!

点分享

点收藏

点点赞

点在看

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-3-11 17:51 , Processed in 0.086744 second(s), 17 queries , MemCached On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表