Haku

Detecting DNA modifications and adducts from nanopore sequencing data with deep learning methods

QR-koodi

Detecting DNA modifications and adducts from nanopore sequencing data with deep learning methods

DNA:n muunnosemästen ja adduktien tunnistaminen nanopore-sekvensointidatasta syväoppimismenetelmillä

Diplomityössäni tutkin syväoppimismenetelmiä DNA:n muunnosemästen sekä adduktien tunnistamiseen nanopore-sekvensointidatasta. Nykyisin käytetyimmät menetelmät DNA:n sekvensointiin hyödyntävät nopeaa suurtehosekvensointia, kuten Illumina-sekvensointi. Näillä menetelmillä DNA:n muunnosemästen, kuten 5-metyylisytosiinin, tunnistaminen vaatii erikoistuneita koeasetelmia, kuten bisulfiittisekvensointia. Nanopore-sekvensointi on kolmannen sukupolven sekvensointimenetelmiin kuuluva teknologia, joka tuottaa emässekvenssin lisäksi signaalimittauksia, joiden avulla emästen tunnistaminen tehdään. Tätä signaalia voidaan hyödyntää myös emäsmuunnosten tunnistamiseen, ja mahdollisesti myös adduktien tunnistamiseen, ilman tarvetta erikoistuneille koeasetelmille. Viime vuosien aikana on kehitetty useita menetelmiä, jotka tunnistavat nanopore-sekvensointidatasta emäsmuunnoksia ja useat lupaavat menetelmät hyödyntävät syväoppimista. Esitän tässä diplomityössä uuden syväoppimismallin, joka pystyy tunnistamaan 5-metyylisytosiinin nanopore-sekvensointidatasta korkealla tarkkuudella. Mallini hyödyntää kahta eri tyyppistä syötedataa ja se rakentuu kahdesta moduulista, jotka hyödyntävät transformer- ja inception-neuroverkkoja. Tämä metylaatioiden tunnistamiseen tehdyn mallin tarkkuus on verrattavissa alan lippulaivamalleihin, mutta neuroverkkoarkkitehtuurinsa vuoksi sen kouluttaminen on huomattavasti nopeampaa kuin kirjallisuudessa esitetyn syväoppimismallin, johon vertasin malliani. Lisäksi esitän työssäni täysin uudenlaisen hypoteesin, jolla DNA-addukteja voisi tunnistaa epäsuorasti nanopore-sekvensointidatasta ennustamalla luettavien sekvenssien loppumista samalla mallilla, jota käytin metylaatioiden tunnistamiseen. Mallin tulokset ovat lupaavia, mutta tarvitaan lisää tutkimusta, jotta hypoteesini voidaan varmistaa ja jotta mallin tulokset paranevat.

Tallennettuna: