Genomika dla informatyków

Zadania kwalifikacyjne są tutaj.

Opis

We wszystkich znanych organizmach żywych, DNA jest nośnikiem informacji genetycznej. Całość materiału genetycznego z pojedynczej komórki lub organizmu nazywana jest genomem. Poznanie sekwencji ludzkiego genomu było milowym krokiem w biologii i medycynie, zbliżającym nas do zrozumienia powiązań pomiędzy zmianami w genomie i chorobami. Ze względu na znaczny rozmiar danych z różnych eksperymentów (sekwencja genomu człowieka ma 3,2 miliarda nukleotydów, czyli w formie nieskompresowanej 3,2 GB), genomika opiera się na wykorzystaniu metod matematycznych i informatycznych. My przeprowadzimy kilka analiz bioinformatycznych przy użyciu publicznie dostępnych danych, pisząc własne programy.

Plan warsztatów

Zadania kwalifikacyjne dotyczą porównania danych z eksperymentów sekwencjonowania transkryptomu (RNA-seq) w dwóch warunkach eksperymentalnych: w jednym komórki były poddane działaniu leku, w drugim nie.

Dzień 1: Zajmiemy się jeszcze trochę danymi RNA-seq, powiem o tym, jak sprawdza się statystyczną istotność różnicy ekspresji genów, policzymy p-wartości z rozkładu dwumianowego, oraz skorygujemy je ze względu na liczbę testowanych hipotez. Następnie przedstawię dane z eksperymentów ChIP-seq o modyfikacjach histonowych. Histony to białka, na które nawinięte jest DNA w jądrze komórkowym. Różne warianty i modyfikacje tych białek pełnią funkcję podobną do bibliotekarza i dynamicznych zakładek: pozwalają komórkom na szybkie odnajdowanie tych genów, które są im potrzebne.

Dzień 2: Sprawdzimy, że pewne rodzaje modyfikacji histonowych częstą współwystępują, a następnie poklastrujemy genom ze względu na profil tych modyfikacji. Porównamy wyznaczone w ten sposób klastry z danymi RNA-seq. Sprawdzimy, jakie modyfikacje histonowe są typowe dla aktywnych genów, nieaktywnych genów, regionów regulatorowych oraz dla pozostałych obszarów w genomie. Upewnimy się, że klastrowanie wychodzi różnie w różnych typach komórek, co jest zgodne z tym, że mają one inne aktywne geny.

Dzień 3: Opowiem o łańcuchach Markowa i ukrytych modelach Markowa, następnie potraktujemy wcześniej wyznaczone klastrowanie genomu jako szereg stanów w łańcuchu Markowa, policzymy macierz przejścia między nimi, i zobaczymy, co z niej wynika. Następnie wykorzystamy ją do przewidywania stanów genomu w innym typie komórek, dla którego nie dysponujemy pełnymi danymi eksperymentalnymi.

Wymagania

Wstępna wiedza biologiczna nie jest potrzebna, wszystkie potrzebne rzeczy będą wyjaśnione w trakcie. Można wyprzedzić rozwój wypadków, zaglądając do dowolnego szkolnego podręcznika biologii i przypominając sobie, jak przetwarzana jest informacja genetyczna.

Przydatne rzeczy

W bioinformatyce jest duża różnorodność wykorzystywanych języków programowania, bibliotek itp. W zadaniach kwalifikacyjnych proponuję konkretne pakiety w R i Pythonie, ale można użyć dowolnych innych narzędzi.