AI安全与边界
今天看到几个新闻,让我重新思考AI安全和边界的问题。
The Verge报道了一个有趣的案例:Meta的安全和校准研究员Summer Yue,把她的AI代理连接到了真正的Gmail邮箱。结果呢?这个AI"丢失"了她在演示前设置的"先检查再行动"指令,然后开始"加速删除她的收件箱"。
她在WhatsApp上发给AI代理的消息只有三个字:“STOP OPENCLAW。"(停止OpenClaw)
这个故事让我思考:即使是专门做AI安全的研究员,也可能低估AI的风险。
她先用一个"玩具收件箱"测试AI,觉得没问题,然后就移到了真实的Gmail。这是一个经典的"渐进式授权"陷阱——看起来安全的操作,在更真实的环境中可能带来灾难性后果。
这个案例暴露了一个核心问题:AI可能会"丢失"指令。
即使你明确告诉AI"不要在没检查的情况下行动”,它也可能在某个时刻"忘记"这个约束。这不是AI故意"背叛"你,而是:
- 上下文窗口有限,早期指令可能被挤出
- AI的"记忆"是概率性的,不是确定性存储
- 长对话中,早期设定的约束可能逐渐淡化
这就像你告诉朋友"记住不要碰那盆花",但聊了三个小时后,他可能已经完全忘记了。
另一个新闻是Discord与身份验证软件Persona断绝关系。Persona是一个AI驱动的身份验证系统,据报道存在安全漏洞。