Circuit Tracer

Anthropic的开放工具,揭示AI的思考方式

2025-06-01

Circuit Tracer
Anthropic的开源Circuit Tracer通过将内部计算可视化为归因图,帮助研究人员理解大型语言模型(LLMs)。可在Neuronpedia上探索或直接使用该库。旨在促进AI的透明度。
Anthropic的Circuit Tracer是一个开源工具,旨在通过可视化大型语言模型(LLMs)的内部计算来增强AI的透明度。它生成归因图,这些图绘制了模型为产生特定输出所采取的步骤,帮助研究人员分析决策过程。该工具包括一个用于在开放权重模型上生成这些图的库,以及由Neuronpedia托管的交互式前端供探索使用。通过Anthropic的Fellows计划开发,Circuit Tracer使用户能够通过修改模型特征来追踪、注释和测试假设。它已经被用于研究模型中的多语言推理等行为,如Gemma和Llama。通过开源这些工具,Anthropic旨在加速可解释性研究并促进对AI系统更深入的理解。该项目鼓励社区合作,以发现模型功能的新见解。
Open Source Artificial Intelligence GitHub