今日应用
今日话题
Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备
重点标签 AI安全、Anthropic、机器之心、技术协议、风险管理
文章摘要
Anthropic公司在2023年提出了负责任扩展策略(RSP),旨在通过一系列技术和组织协议来管理日益强大的AI系统的开发。RSP专注于灾难性风险,包括AI模型被滥用或自主行动造成大规模破坏的风险。为此,Anthropic定义了AI安全等级(ASL),其中ASL-1表示无重大灾难风险的系统,ASL-2指有危险能力早期迹象的系统,ASL-3涉及增加灾难性滥用风险的系统,而ASL-4及以上则涉及更高级别的风险和自主性。
Anthropic的安全研究部门负责人Sam Bowman在博客中分享了他对AI安全的看法。他认为,AI有望达到与人类相当的水平,称为变革性人工智能(TAI),这将加速AI研发进程。然而,如果部署不当,超级AI系统可能极具破坏性。因此,确保AI系统行为与开发者意图一致的“对齐”至关重要,且随着AI系统能力增强,这一任务变得更加艰巨。
Bowman提出了三个阶段的AI安全策略:
1. 准备阶段:在AI尚未达到TAI水平时,进行干预和准备工作,关注技术前沿,解决TAI对齐问题,确保初始形态的TAI安全无害,并制定合适的RSP。
2. TAI阶段:性能最好的模型开始符合TAI标准,但尚未在所有领域超越人类。在这个阶段,AI研发逐渐自动化,需要开发方法来调整实质上超人的AI,并进行不断、仔细的评估。
3. TAI之后:最强的AI模型在广义上超越了人类,需要ASL-5级别的预防措施。在这个阶段,监管机构可能会投入巨资,而公司不再需要独自做出重大决策。
Bowman还强调了保护算法秘密的重要性,以及为ASL-4和ASL-5建立清晰的评估体系。此外,他提到了构建高度自适应的研究基础设施,以及为新兴风险因素开发明确的确凿证据演示。在TAI出现前,可能需要公司组织调整和基础设施建设,以及压力测试安全案例和审查安全案例。
最后,Bowman指出,Anthropic面临的最紧迫安全问题是找到一个或几个有威望的第三方组织来胜任裁决角色,以确保AI系统的安全和对社会的影响得到广泛认可和信任。