MAC0215 — IME-USP
Interpretabilidade Mecanica em Modelos de Linguagem
Um estudo dos mecanismos internos de LLMs e preparacao de um guia de estudos para a area
Adrian Valentim
Marco–Junho 2026
108 horas
-
Pesquisa e formulacao da lista de paradigmas e artigos mais importantes da area
8h
-
Preparacao do cronograma de estudo
2h
-
Estudo: "Zoom In: An Introduction to Circuits" (Olah et al., 2020)
4h
-
Estudo: "Toy Models of Superposition" (Elhage et al., 2022)
10h
-
Escrita de notas sobre features, circuitos, superposicao, polissemia vs. monossemanticidade
4h
-
Estudo: "A Mathematical Framework for Transformer Circuits" (Elhage et al., 2021)
10h
-
Estudo: "In-context Learning and Induction Heads" (Olsson et al., 2022)
6h
-
Escrita da primeira secao do guia final sobre fundamentos e circuitos
8h
-
Exploracao pratica com a biblioteca TransformerLens (Neel Nanda)
8h
-
Estudo: "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning" (Bricken et al., 2023)
8h
-
Estudo: "Scaling Monosemanticity" (Templeton et al., 2024)
8h
-
Escrita de notas sobre dictionary learning, features e escala
4h
-
Leitura: "On the Biology of a Large Language Model" (Anthropic, 2025)
8h
-
Investigacao livre sobre um subtema da fronteira (alinhamento, circuit-breaking, etc.)
8h
-
Escrita final do guia de estudos
12h
Notas de pesquisa
Ainda não foram adicionadas notas aqui.