MAC0215 — IME-USP

Interpretabilidade Mecanica em Modelos de Linguagem

Um estudo dos mecanismos internos de LLMs e preparacao de um guia de estudos para a area

Adrian Valentim Marco–Junho 2026 108 horas

Progresso geral 14 de 108h concluidas

Marco 28h

Pesquisa e formulacao da lista de paradigmas e artigos mais importantes da area 8h
Preparacao do cronograma de estudo 2h
Estudo: "Zoom In: An Introduction to Circuits" (Olah et al., 2020) 4h
Estudo: "Toy Models of Superposition" (Elhage et al., 2022) 10h
Escrita de notas sobre features, circuitos, superposicao, polissemia vs. monossemanticidade 4h

Abril 24h

Estudo: "A Mathematical Framework for Transformer Circuits" (Elhage et al., 2021) 10h
Estudo: "In-context Learning and Induction Heads" (Olsson et al., 2022) 6h
Escrita da primeira secao do guia final sobre fundamentos e circuitos 8h

Maio 28h

Exploracao pratica com a biblioteca TransformerLens (Neel Nanda) 8h
Estudo: "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning" (Bricken et al., 2023) 8h
Estudo: "Scaling Monosemanticity" (Templeton et al., 2024) 8h
Escrita de notas sobre dictionary learning, features e escala 4h

Junho 28h

Leitura: "On the Biology of a Large Language Model" (Anthropic, 2025) 8h
Investigacao livre sobre um subtema da fronteira (alinhamento, circuit-breaking, etc.) 8h
Escrita final do guia de estudos 12h

Notas de pesquisa

Ainda não foram adicionadas notas aqui.