Mechaniczna interpretowalność modeli językowych

Prowadzący: Michał Burzyński


matematyka informatyka
czyli krótki wstęp do lobotomii

Trenujemy ogromną sieć neuronową. Przez kilka godzin algorytm przelicza miliony parametrów, optymalizuje gradienty i, niemal magicznie, otrzymujemy model zdolny do bezbłędnego rozwiązywania skomplikowanych problemów. Ale czy zastanawiałeś się kiedyś, co tak naprawdę dzieje się w środku? Na co model „patrzy” podejmując decyzje, a co całkowicie ignoruje?

Opis

Podczas warsztatów spróbujemy zrozumieć jak działają LLMy od wewnątrz. Spróbujemy to zrobić korzystając z istniejących już narzędzi analitycznych szukając odpowiednich struktur (tzw. obwodów) czy po prostu patrząc na wewnętrzne aktywacje (dokładniej dowiecie się podczas samych warsztatów). Poza teorią będzie dużo praktycznych zadań oraz (mam nadzieję) fajnych symulacji.

Plan jest aby omówić następujące tematy:

  • Induction heads,
  • Model steering,
  • Sparse autoencoders (SAE),
  • Superposition,
  • Grokking

Wymagania

Wymagane cechy i umiejętności:

  1. Python (kluczowe! Jest to na tyle prosty język, że można się go nauczyć w kilka dni)
  2. Podstawy algebry liniowej (jeśli rozumiesz jak działa mnożenie macierzy to powinno być git, można dodatkowo obejrzeć Essence of Linear Algebra)
  3. Idealnie wiedza jak działają transformery, ale po przerobieniu części zadań kwalifikacyjnych będziesz mieć dostatecznie dobrą intuicję.

Przydatne rzeczy

Jeśli kogoś ciekawi ten temat to warto zobaczyć:

ale nie jest to konieczne.

Kontakt

Kontakt najlepiej przez maila podanego w pliku z zadaniami kwalifikacyjnymi.