今日应用
今日话题
从Claude 3中提取数百万特征,首次详细理解大模型的「思维」
文章摘要
Anthropic公司在理解人工智能模型内部运作机制方面取得了重大进展。他们确定了如何在Claude Sonnet中表征数百万个概念,这是对现代生产级大型语言模型的首次详细理解。这种可解释性将有助于提高人工智能模型的安全性,具有里程碑意义。
人工智能模型通常被视为黑匣子,输入信息后会得到响应,但不清楚为什么会得到特定的响应。这使得人们难以相信这些模型是安全的。Anthropic的研究团队通过与Claude等模型进行交互发现,每个概念都是通过许多神经元来表征的,并且每个神经元都参与表征许多概念。
Anthropic使用了一种称为”字典学习”的方法,将神经元激活模式(称为特征)与人类可解释的概念相匹配。这种方法分离了在许多不同上下文中重复出现的神经元激活模式。模型的任何内部状态都可以用一些活跃特征而不是许多活跃神经元来表征。
2023年10月,Anthropic成功地将字典学习方法应用于一个非常小的toy语言模型,并发现了与大写文本、DNA序列、引文中的姓氏、数学中的名词或Python代码中的函数参数等概念相对应的连贯特征。这些概念很有趣,但模型确实非常简单。
研究人员第一次成功地从Claude 3.0 Sonnet的中间层提取了数百万个特征,这些特征涵盖特定的人和地点、与编程相关的抽象概念、科学主题、情感以及其他概念。这些特征非常抽象,通常在不同的上下文和语言中表征相同的概念,甚至可以推广到图像输入。
研究者还发现了一些与模型安全性和可靠性相关的特征,包括与代码漏洞、欺骗、偏见、阿谀奉承和犯罪活动相关的特性。例如,”保密”特征在描述人或角色保守秘密时会激活,激活这些特征会导致Claude向用户隐瞒信息。
这些特征都是可操控的,可以人为地放大或抑制它们。例如,放大”Golden Gate Bridge”特征,Claude会经历无法想象的身份危机,无论遇到什么问题,它都会提到Golden Gate Bridge。研究者还发现了一个在Claude读取诈骗邮件时激活的特征,这可能支持模型识别此类邮件并警告用户不要回复的能力。
Anthropic希望从广义上确保模型的安全,包括从缓解偏见到确保AI诚实行动、防止滥用,包括在灾难性风险情境中的防护。该研究还发现了与可能被滥用的能力(代码后门、开发生物武器)、不同形式的偏见(性别歧视、关于犯罪的种族主义言论)、潜在问题的AI行为(追求权力、操控、保密)等对应的特征。
Anthropic发现的特征表征了模型在训练过程中学到的所有概念的一小部分,并且使用当前的方法找到一整套特征将是成本高昂的。这项工作实际上才刚刚开始。
文章来源
原文地址: 点我阅读全文
原文作者: 机器之心