Mechaniczna interpretowalność modeli językowych
Prowadzący: Michał Burzyński
czyli krótki wstęp do lobotomii
Trenujemy ogromną sieć neuronową. Przez kilka godzin algorytm przelicza miliony parametrów, optymalizuje gradienty i, niemal magicznie, otrzymujemy model zdolny do bezbłędnego rozwiązywania skomplikowanych problemów. Ale czy zastanawiałeś się kiedyś, co tak naprawdę dzieje się w środku? Na co model „patrzy” podejmując decyzje, a co całkowicie ignoruje?
Opis
Podczas warsztatów spróbujemy zrozumieć jak działają LLMy od wewnątrz. Spróbujemy to zrobić korzystając z istniejących już narzędzi analitycznych szukając odpowiednich struktur (tzw. obwodów) czy po prostu patrząc na wewnętrzne aktywacje (dokładniej dowiecie się podczas samych warsztatów). Poza teorią będzie dużo praktycznych zadań oraz (mam nadzieję) fajnych symulacji.
Plan jest aby omówić następujące tematy:
- Induction heads,
- Model steering,
- Sparse autoencoders (SAE),
- Superposition,
- Grokking
Wymagania
Wymagane cechy i umiejętności:
- Python (kluczowe! Jest to na tyle prosty język, że można się go nauczyć w kilka dni)
- Podstawy algebry liniowej (jeśli rozumiesz jak działa mnożenie macierzy to powinno być git, można dodatkowo obejrzeć Essence of Linear Algebra)
- Idealnie wiedza jak działają transformery, ale po przerobieniu części zadań kwalifikacyjnych będziesz mieć dostatecznie dobrą intuicję.
Przydatne rzeczy
Jeśli kogoś ciekawi ten temat to warto zobaczyć:
- The Illustrated Transformer
- A Mathematical Framework for Transformer Circuits
- Neural Networks & Transformers
- Toy Models of Superposition
- Towards Monosemanticity: Decomposing Language Models With Dictionary Learning
- A Mechanistic Interpretability Analysis of Grokking (Neel Nanda et al.)
ale nie jest to konieczne.
Kontakt
Kontakt najlepiej przez maila podanego w pliku z zadaniami kwalifikacyjnymi.