word2vec

Prowadzący: Krzysztof Zając


Kategorie: informatyka

Na warsztatach opowiem o algorytmie word2vec (https://en.wikipedia.org/wiki/Word2vec).
Dzięki niemu możemy przekształcać słowa w wektory w przestrzeni liniowej, tak, żeby:

  • wektory podobnych znaczeniowo słów były blisko,
  • działała arytmetyka, np:
    • wektor(Warszawa) - wektor(Polska) + wektor(Niemcy) \(\approx\) wektor(Berlin), bo jak stolicy Polski odejmiemy polskość, a dodamy niemieckość, wyjdzie stolica Niemiec,
    • wektor(król) - wektor(mężczyzna) + wektor(kobieta) \(\approx \) wektor(królowa).

Algorytm działa chociaż nic nie wie o gramatyce.

Opiszę dlaczego to działa, po czym nauczycie ten algorytm korzystając z dużego zbioru tekstów, takiego jak polska Wikipedia. Przy okazji dowiecie się jak pracować z kilkugigabajtowymi plikami z tekstem i to przeżyć.

Następnie:

  • sprawdzicie sami, kim jest według algorytmu prezydent + władza,
  • poeksperymentujecie z wynikami tego algorytmu,
  • pomyślimy, jak zrobić, żeby radziło sobie ze słowami odmienionymi przez przypadki,
  • dowiecie się, jak się wizualizuje punkty w przestrzeni stuwymiarowej.

Wymagania

  • znajomość języka Python,
  • własny komputer,
  • zainstalowany Python oraz kilka pakietów Pythona (dokładne instrukcje co zainstalować wyślę mailem przed warsztatami),
  • 10GB wolnego miejsca na dysku.

Zadania kwalifikacyjne

Pojawią się 31 maja 2016.