Voiko vähästä oppia : koneoppimisen haasteet pienellä aineistolla

Voiko vähästä oppia : koneoppimisen haasteet pienellä aineistolla

https://jyx.jyu.fi/handle/123456789/64021

http://www.urn.fi/URN:NBN:fi:jyu-201905172650

URN:NBN:fi:jyu-201905172650.pdf (Jyväskylä universitet - JYX)

Kandidatavhandling

Kauppinen, Jussi ; Informaatioteknologian tiedekunta ; Faculty of Information Technology ; Informaatioteknologia ; Information Technology ; Jyväskylän yliopisto ; University of Jyväskylä ; Tietotekniikka ; Mathematical Information Technology ; 602

2019

Tämä kandidaatintutkielma käsittelee koneoppimista pienellä aineistolla. Koneoppimisessa kone parantaa suorituskykyään jonkin tietyn tehtävän ratkaisemiseksi itsenäisesti sitä mukaa kun lisää kokemusta tai dataa kertyy. Koneoppimisongelmat voidaan jakaa luokittelu- ja regressio-ongelmiin. Yleensä koneoppimistehtävät vaativat ison aineiston tarkan koneoppimismallin opettamiseksi, mutta usein kattavan aineiston hankkiminen muodostuu ongelmaksi. Tämän tutkielman tavoitteena on käydä läpi minkälaisia ongelmia koneoppimismallin opetuksessa ilmenee kun käytettävissä on pieni aineisto ja esitellä ratkaisuja näihin ongelmiin. Tutkielma tehtiin kirjallisuuskatsauksena. Tutkitut julkaisut käsittelivät edellä mainittuja ongelmia, sekä niihin kehiteltyjä ratkaisuja. Tutkielmassa selvisi, että pienellä aineistolla on haastavampaa opettaa hyvin yleistyvää koneoppimismallia, ja ylisovittumisen välttäminen on vaikeaa. Yleistymisen parantamiseksi esitellään keinotekoista lisädataa generoiva SMOTE-tekniikka, ja ylisovittumista yritetään saada kuriin regularisoinnin avulla

This bachelor’s thesis deals with machine learning with little data. In machine learning, the machine improves its performance to solve a specific task independently as more experience or data accumulates. Machine learning problems can be divided into classification and regression problems. Usually, machine learning tasks require large data to train an accurate machine learning model, but often obtaining large enough data is problematic. The aim of this thesis is to review the problems encountered in training a machine learning model when there is only little data available and solutions to these problems. The thesis was made as a literature review. The publications examined deal with the above-mentioned problems, as well as the solutions developed for them. In the thesis it became clear that it is more challenging to teach a machine learning model that generalizes well with little material, and it is difficult to avoid overfitting. In order to generalize better, we examine SMOTE technology to generate synthetic data and to prevent overfitting we talk about regularization.

Sparad:

Språk

finska

Ämnen

luokittelu