Haku

Datan laatu koneoppimisessa

QR-koodi

Datan laatu koneoppimisessa

Datan määrä organisaatioissa kasvaa kiihtyvällä tahdilla. Perinteisen raportoinnin ja data-analytiikan rinnalla halutaan hyödyntää tekoälyä ja koneoppimista liiketoiminnan kehittämisessä sekä uusissa liiketoimintamahdollisuuksissa. Tämän mahdollistamiseksi datan laadullisiin ominaisuuksiin tulee kiinnittää entistä enemmän huomiota.

Tässä opinnäytetyössä tutkittiin toimeksiantajaorganisaation tietokannan datan laatua ja arvioitiin sen valmiutta koneoppimisen hyödyntämiseen. Tutkimus toteutettiin Kiinteistönvälitysalan Keskusliitto Ry:n KVKL Hintaseurantapalvelulle case-tutkimuksena.

Tutkimuksen teoriaosuudessa käsiteltiin datan laadun rakentumista, laadun ulottuvuuksia ja niiden mittaamista kokonaisuutena. Lisäksi käsiteltiin tekoälyn ja koneoppimisen perusteita, erityisesti koneoppimisen ennustemallien näkökulmasta. Tutkimusosuudessa keskityttiin analysoimaan toimeksiantajan datan laatua objektiivisten mittareiden kautta. Tämän lisäksi tutkimuksessa testattiin kahta erityyppistä koneoppimismallia. Malleja koulutettiin erilaisin tavoin esikäsitellyillä data-aineistoilla. Näin osoitettiin datan laadun merkitys koneoppimisen ennustemalleille.

Tutkimuksen tulokset osoittivat datan muuttuneen merkittävästi vuosien varrella. Datan sisällön ja laadun havaittiin kehittyneen hyvään suuntaan. Koneoppimiskokeilussa ennustemallit ennustivat jopa 90 %:n tarkkuudella asunnon hinnan oikein datan laadun puhdistustoimenpiteiden jälkeen. Vaikka tulos oli varsin hyvä, ennustetarkkuutta saataisiin todennäköisesti parannettua keskittymällä datan oikeellisuuden ja oikeamuotoisuuden parantamiseen. Tulosten pohjalta toimeksiantajalle annettiin kehitysehdotuksia datan laadun kehittämiseksi. Tämän opinnäytetyön ulkopuolelle rajattiin tarkempi koneoppimismallien valintaan ja opti- mointiin liittyvä läpikäynti.

Tallennettuna: