OpenAI在尝试利用GPT-4为GPT-2中的所有307,200个神经元贴上标签提供解释,用简单的英语描述每个神经元在模型中的作用,这将有助于大家理解模型,以及对模型对齐。
语言模型已经变得非常强大,部署更广泛,但是我们对它们在内部如何工作的理解仍然非常有限。例如,可能很难从它们的输出中检测到它们是使用有偏见的启发式方法还是参与欺骗。可解释性研究旨在通过查看模型内部来发现其他信息。
解释性研究的一种简单方法是首先了解各个组件 (神经元和注意力头) 在做什么。在过去,这要求人类手动检查神经元,以找出它们代表的数据的特征。这个过程不能很好地扩展: 很难将其应用于具有数百亿或数千亿个参数的神经网络。
openai提出了一种自动化过程,该过程使用GPT-4来产生和评分神经元行为的自然语言解释,并将其应用于另一种语言模型中的神经元。下面的例子是利用GPT-4为GPT-2贴上标签解释的例子,可以看到不同的层级提取了单词的不同语义信息。



语言模型已经变得非常强大,部署更广泛,但是我们对它们在内部如何工作的理解仍然非常有限。例如,可能很难从它们的输出中检测到它们是使用有偏见的启发式方法还是参与欺骗。可解释性研究旨在通过查看模型内部来发现其他信息。
解释性研究的一种简单方法是首先了解各个组件 (神经元和注意力头) 在做什么。在过去,这要求人类手动检查神经元,以找出它们代表的数据的特征。这个过程不能很好地扩展: 很难将其应用于具有数百亿或数千亿个参数的神经网络。
openai提出了一种自动化过程,该过程使用GPT-4来产生和评分神经元行为的自然语言解释,并将其应用于另一种语言模型中的神经元。下面的例子是利用GPT-4为GPT-2贴上标签解释的例子,可以看到不同的层级提取了单词的不同语义信息。


