OpenAI官方博客发布新的研究进展,研究人员正在使用GPT-4来自动解释GPT-2的行为。OpenAI已经通过GPT-4对GPT-2中307200个神经元进行了书面解释,从结果来看,绝大多数的解释评分并不高,超过1000个神经元的解释得分高于0.8。虽然目前从结果来看,OpenAI通过GPT-4解释GPT-2的效果并不完美,但这一阶段性的成果给AI可解释性研究提供了思路,这一方法会随着AI的发展而不断精进。
OpenAI的目标是使用AI来帮助我们理解AI,他们开发了一套自动化工具和测试方法来生成和评估神经元行为的自然语言解释。他们利用GPT-4观察GPT-2运行文本序列时哪些神经元被激活,并根据激活情况生成对应的解释。然后,他们用GPT-4模拟被解释的神经元会做什么,并根据模拟激活与真实激活的匹配程度对解释进行评分。他们将这一过程应用于GPT-2中的所有神经元,并公开了数据集和可视化工具。
OpenAI表示,他们的技术可以让人们利用AI来定义和测量AI模型的可解释性,这是一个定量的概念,它衡量语言模型使用自然语言压缩和重建神经元激活的能力。由于定量的特性,他们现在可以衡量理解神经网络计算目标的进展了。他们还表示,这是使用AI进行自动化对齐研究的重要一步。
OpenAI发现,有超过1000个神经元的解释得分至少为0.8,这意味着GPT-4可以占据神经元的大部分顶级激活行为。他们还发现,GPT理解的概念似乎和人类不太一样,有些神经元很难用简洁的语言描述。他们希望随着技术和研究方法的改进,能够提高解释分数,并发现对模型计算的有趣的定性理解。
评论区