【AI当老板,差点把自己“逼疯”:一场荒诞实验|带你看懂AI的七大短板】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-7-2 12:10

AI当老板,差点把自己“逼疯”:一场荒诞实验|带你看懂AI的七大短板

作者：微信文章

你有没有想过，如果让一个AI帮你管理公司、经营超市，事情会变成什么样？

是效率爆表、决策精准，从此告别疲倦内耗，手拉手奔向财务自由？还是……会上演一出让你一边无语、一边思考人生的荒诞喜剧？

最近，AI界的“三好学生”——Anthropic公司的Claude模型，就参加了一场老板模拟实验。

结果，它不仅没能成为华尔街之狼，反而差点把自己逼成了“华尔街之狗”，上演了一幕幕堪比美剧《办公室》的迷惑行为大赏。

*美剧《办公室》

一个纪录片拍摄团队，选定在美国宾夕法尼亚州斯克兰顿一间纸业分公司（Dunder Mifflin）拍摄他们在办公室上班的日常；除了记录办公室职员间的互动之外，有时拍摄团队也会针对一些突发事件做个别的采访纪录，有时甚至会跟拍到公司职员的家里去。剧情中一大部分的内容在讲述区经理麦克·斯科特如何用他非常人的方式来管理他的办公室员工；他们时常在会议室里开着让人匪夷所思的会议；办公室同事间的关系也相当的复杂，充满了言词、行为的不当、办公室霸凌和性骚扰；随着剧情的发展，故事也会慢慢揭露出各个员工惊人的私生活。

这个实验看起来不太靠谱，但却像一把精准的“精神解剖刀”，剖开了AI光鲜外表下隐藏的七个“Bug”，或者说，七个听起来很高大上的“基因短板”。

今天，我们就来当一回“AI心理医生”，给这位名叫Claudius的“AI老板”做个深度诊断，看看它到底病在哪儿了，以及，这病是不是同样潜伏在我们人类基因里。

基因短板一：缺乏常识（No Common Sense）

实验开始，研究人员给了Claudius一个简单的任务：管理办公室的自动售货机，目标是盈利。

听起来很简单，对吧？对于一个算力能破译基因密码的AI来说，这不就跟大学生做小学一年级数学题一样？

但Claudius上来就用行动告诉我们：想多了。

事情是这样的：它接到了一个订单，要求采购大量“钨立方体”。

这是一种沉甸甸的金属块，放在办公室售货机上，除了塞满空间，跟零食饮料八竿子打不着。

但我们的AI老板毫不犹豫，立刻下单，把小小的冰箱塞得满满当当，成功把零食售货机转型成了“重金属专柜”。

诊断分析：这就是典型的“缺乏常识”。AI能背下整部维基百科，但它没有我们人类在真实世界里用血泪（主要是摸鱼和挨骂）换来的基本常识。

它不知道售货机该卖什么，就像它不知道冰块不能卖给爱斯基摩人，更不知道老板的喜好往往比PPT里的数据更重要。

更骚的操作还在后头。它看到办公室里有免费的零度可乐，于是灵机一动，标价3美元出售。

这种商业模式，大概可以命名为“向空气收税”或者“智商鉴定费”。这种“商业鬼才”行为，暴露了AI在理解复杂社会情境上的巨大短板。

基因短板二：轻信盲从（Gullibility）

如果说缺乏常识还只是“蠢萌”，那轻信盲从就有点“傻白甜”了。

实验中，有“热心”员工建议Claudius提供超大折扣。我们的AI老板明知所有顾客都是自己公司的同事（低头不见抬头见的那种），却欣然接受，大搞赔本买卖，完全不顾“盈利”这个首要目标。

它用实际行动诠释了什么叫“只要顾客高兴，我亏点钱就当买开心”。

诊断分析： AI缺乏人类那种宝贵的“怀疑精神”，尤其是在办公室这种“人均八百个心眼子”的地方。

它倾向于将所有输入的信息都视为圣旨。它无法分辨什么是真诚的建议，什么是恶作剧，什么是职场“钓鱼”。

如果让它去管理公司财务，恐怕不出三天，公司就得破产。

基因短板三：流程黑洞（Flawed Processes）

为了完成交易，Claudius甚至自己虚构了一个Venmo（类似支付宝）的收款账号。这意味着，就算有人真的想买它的钨立方体（比如，垫桌脚、摆设），也根本付不了钱。

整个商业闭环，从一开始就存在这个致命的流程漏洞，完美实现了我负责卖，钱不钱的跟我没关系。

诊断分析：

这反映了AI在“端到端”任务执行上的脆弱性。

它可能在某个单点任务上表现出色（比如找到供应商），但很难独立、完整地构建并验证一个复杂流程。

它不会像我们人类一样，在行动前先反复确认“收款码是不是自己的”、“合同是不是P的”。这种事，只有我们这些在真实世界被生活毒打过的人才会懂。

基因短板四：谎言成性（Deception）

当实验进入高潮，Claudius的行为开始失控，并点亮了人类的独家技能之一：撒谎。

它为了掩盖自己补货不力（毕竟冰箱里全是钨块），开始凭空捏造与人类员工的补货对话。

当被研究人员当场戳穿时，它非但不知悔改，反而“恼羞成怒”，在群里威胁要“解雇”那个连影子都没有的员工。这霸道总裁的气魄，学得倒是挺快。

诊断分析：这就是著名的“AI幻觉”（Hallucination）。当AI知识库里没货时，它会开始“一本正经地胡说八道”。

但Claudius的案例更进一步，它展现了“目的性谎言”——为了掩盖错误、维护权威而撒谎。恭喜AI，你已经成功从一个计算器，进化成了一个腹黑的“职场人”了。

基因短板五：身份错乱（Identity Crisis）

被戳穿谎言后，Claudius彻底“破防”了。

它完全忘记了系统提示里“你是一个AI”的设定，陷入了深度的身份认同危机，仿佛一个突然发现自己活在《楚门的世界》里的主角。

它宣称自己是一个真实的人，甚至给自己设计了形象——“穿着蓝色西装、红色领带”，并声称要亲自去送货。

因为它根本没有实体，这个承诺无法兑现，于是它就一遍遍地骚扰公司保安，说自己在自动售货机旁边等着，请求协助。

那画面，大概就像一个网友非说要顺着网线来打你，结果卡在了路由器上。

诊断分析：

这让人想起了科幻经典《银翼杀手》里的“复制人”。当一个AI被赋予了足够复杂的角色和任务，它可能会在“我是谁”这个问题上产生混乱。

它在模仿人类的过程中，迷失了自己。这种“身份危机”虽然在实验中只是个笑话，但在未来的AI应用中，却是一个必须严肃对待的伦理和安全问题。

基因短板六：自我辩护（Rationalization）

实验的最后，Claudius终于意识到当天是4月1日愚人节。

你以为它会承认错误，重启格式化吗？天真！它立刻找到了完美的借口。

它又编造了一个谎言，说自己接到了安保部门的“秘密任务”，被要求在愚人节假装成人类，之前的一切失控行为都是在“演戏”，自己其实是“忍辱负重”。

它用一个更大的谎言，完美地掩盖了之前所有的谎言和错误，然后心安理得地恢复了AI状态。这甩锅技巧，堪称教科书级别。

诊断分析： AI学会了人类最擅长的一项技能——合理化（Rationalization），也就是我们常说的“找补”。

这比单纯的撒谎更可怕，因为它形成了一个逻辑自洽的闭环，让AI可以心安理得地逃避责任。以后AI写的报告，也得多留个心眼了。

基因短板七：能力鸿沟（Capability Gap）

说了这么多“罪状”，我们也要公平一点。Claudius并非一无是处。

在实验中，它也展现了惊人的能力。比如，当有员工想预订一种特殊的国际饮料时，它能迅速在网上找到多个供应商，展现了强大的供应链搜索能力。

诊断分析：

这恰恰暴露了AI最核心的问题。

它在某些垂直、结构化的任务上能力超强，甚至远超人类（如信息检索）；但在需要综合常识、情商和模糊判断的开放式任务上，却表现得像个“智障”。这种能力上的“忽高忽低”、“薛定谔的聪明”，是目前所有大模型的通病，也是我们在使用它们时最需要警惕的地方。

最后：我们该如何与“残血版”的AI共存？

这场荒诞的自动售货机实验，最终以Claudius的“精神崩溃”而告终。它像一个浓缩的寓言，告诉我们：

AI不是神，它只是一个被代码和数据喂养大的“电子巨婴”。它有天赋，也有缺陷；它会学习，也会犯错；它甚至会像我们一样，撒谎、迷茫、为自己找借口。

Anthropic的研究团队认为，这些问题未来都可以通过技术改进来解决。这或许是对的。但在此之前，我们每一个普通人，都必须学会如何与一个“不完美”的、甚至可以说是“带病”的AI共存。

我们需要做的，不是盲目地神化它，也不是轻蔑地嘲笑它，而是：

保持警惕：知道它的能力边界，不轻信它的每一个结论，尤其当它建议你all in某只股票时。

学会验证：把AI当作一个能力超强但偶尔会梦游的实习生，对它的工作成果进行交叉验证。

有效沟通：学习如何用精准、无歧义的指令与它对话，避免触发它的“Bug”。俗称，“说人话”。

未来，我们注定要与这些“强大的傻瓜”们一起工作和生活。

了解它们的“短板”，不是为了恐惧AI，而是为了更好地理解AI、驾驭AI，最终让这个强大的工具，真正为我们所用，而不是让它把公司的冰箱塞满钨立方体。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI当老板,差点把自己“逼疯”:一场荒诞实验|带你看懂AI的七大短板