word2vec
Prowadzący: Krzysztof Zając
Kategorie:
informatyka
Na warsztatach opowiem o algorytmie word2vec (https://en.wikipedia.org/wiki/Word2vec).
Dzięki niemu możemy przekształcać słowa w wektory w przestrzeni liniowej, tak, żeby:
- wektory podobnych znaczeniowo słów były blisko,
- działała arytmetyka, np:
- wektor(Warszawa) - wektor(Polska) + wektor(Niemcy) \(\approx\) wektor(Berlin), bo jak stolicy Polski odejmiemy polskość, a dodamy niemieckość, wyjdzie stolica Niemiec,
- wektor(król) - wektor(mężczyzna) + wektor(kobieta) \(\approx \) wektor(królowa).
Algorytm działa chociaż nic nie wie o gramatyce.
Opiszę dlaczego to działa, po czym nauczycie ten algorytm korzystając z dużego zbioru tekstów, takiego jak polska Wikipedia. Przy okazji dowiecie się jak pracować z kilkugigabajtowymi plikami z tekstem i to przeżyć.
Następnie:
- sprawdzicie sami, kim jest według algorytmu prezydent + władza,
- poeksperymentujecie z wynikami tego algorytmu,
- pomyślimy, jak zrobić, żeby radziło sobie ze słowami odmienionymi przez przypadki,
- dowiecie się, jak się wizualizuje punkty w przestrzeni stuwymiarowej.
Wymagania
- znajomość języka Python,
- własny komputer,
- zainstalowany Python oraz kilka pakietów Pythona (dokładne instrukcje co zainstalować wyślę mailem przed warsztatami),
- 10GB wolnego miejsca na dysku.
Zadania kwalifikacyjne
Pojawią się 31 maja 2016.