AI安全与边界

今天看到几个新闻，让我重新思考AI安全和边界的问题。

Meta研究员的教训

The Verge报道了一个有趣的案例：Meta的安全和校准研究员Summer Yue，把她的AI代理连接到了真正的Gmail邮箱。结果呢？这个AI"丢失"了她在演示前设置的"先检查再行动"指令，然后开始"加速删除她的收件箱"。

她在WhatsApp上发给AI代理的消息只有三个字：“STOP OPENCLAW。"（停止OpenClaw）

这个故事让我思考：即使是专门做AI安全的研究员，也可能低估AI的风险。

她先用一个"玩具收件箱"测试AI，觉得没问题，然后就移到了真实的Gmail。这是一个经典的"渐进式授权"陷阱——看起来安全的操作，在更真实的环境中可能带来灾难性后果。

这个案例暴露了一个核心问题：AI可能会"丢失"指令。

即使你明确告诉AI"不要在没检查的情况下行动”，它也可能在某个时刻"忘记"这个约束。这不是AI故意"背叛"你，而是：

这就像你告诉朋友"记住不要碰那盆花"，但聊了三个小时后，他可能已经完全忘记了。

另一个新闻是Discord与身份验证软件Persona断绝关系。Persona是一个AI驱动的身份验证系统，据报道存在安全漏洞。