Detecting DNA modifications and adducts from nanopore sequencing data with deep learning methods

Detecting DNA modifications and adducts from nanopore sequencing data with deep learning methods

DNA:n muunnosemästen ja adduktien tunnistaminen nanopore-sekvensointidatasta syväoppimismenetelmillä

https://aaltodoc.aalto.fi/handle/123456789/103119

http://www.urn.fi/URN:NBN:fi:aalto-202103212398

master_Koski_Yrjö_2021.pdf (Aalto-yliopisto - Aaltodoc)

Maisterivaiheen työ

Koski, Yrjö ; Pitkänen, Esa ; Palin, Kimmo ; Perustieteiden korkeakoulu ; Lähdesmäki, Harri ; Aalto-yliopisto ; Aalto University

2021

Diplomityössäni tutkin syväoppimismenetelmiä DNA:n muunnosemästen sekä adduktien tunnistamiseen nanopore-sekvensointidatasta. Nykyisin käytetyimmät menetelmät DNA:n sekvensointiin hyödyntävät nopeaa suurtehosekvensointia, kuten Illumina-sekvensointi. Näillä menetelmillä DNA:n muunnosemästen, kuten 5-metyylisytosiinin, tunnistaminen vaatii erikoistuneita koeasetelmia, kuten bisulfiittisekvensointia. Nanopore-sekvensointi on kolmannen sukupolven sekvensointimenetelmiin kuuluva teknologia, joka tuottaa emässekvenssin lisäksi signaalimittauksia, joiden avulla emästen tunnistaminen tehdään. Tätä signaalia voidaan hyödyntää myös emäsmuunnosten tunnistamiseen, ja mahdollisesti myös adduktien tunnistamiseen, ilman tarvetta erikoistuneille koeasetelmille. Viime vuosien aikana on kehitetty useita menetelmiä, jotka tunnistavat nanopore-sekvensointidatasta emäsmuunnoksia ja useat lupaavat menetelmät hyödyntävät syväoppimista. Esitän tässä diplomityössä uuden syväoppimismallin, joka pystyy tunnistamaan 5-metyylisytosiinin nanopore-sekvensointidatasta korkealla tarkkuudella. Mallini hyödyntää kahta eri tyyppistä syötedataa ja se rakentuu kahdesta moduulista, jotka hyödyntävät transformer- ja inception-neuroverkkoja. Tämä metylaatioiden tunnistamiseen tehdyn mallin tarkkuus on verrattavissa alan lippulaivamalleihin, mutta neuroverkkoarkkitehtuurinsa vuoksi sen kouluttaminen on huomattavasti nopeampaa kuin kirjallisuudessa esitetyn syväoppimismallin, johon vertasin malliani. Lisäksi esitän työssäni täysin uudenlaisen hypoteesin, jolla DNA-addukteja voisi tunnistaa epäsuorasti nanopore-sekvensointidatasta ennustamalla luettavien sekvenssien loppumista samalla mallilla, jota käytin metylaatioiden tunnistamiseen. Mallin tulokset ovat lupaavia, mutta tarvitaan lisää tutkimusta, jotta hypoteesini voidaan varmistaa ja jotta mallin tulokset paranevat.

Tallennettuna:

Kieli

englanti

Aiheet

deep learning