Vahvistusoppiminen

Wikipediasta
Tämä on arkistoitu versio sivusta sellaisena, kuin se oli 19. syyskuuta 2008 kello 20.24 käyttäjän Nallimbot (keskustelu | muokkaukset) muokkauksen jälkeen. Sivu saattaa erota merkittävästi tuoreimmasta versiosta.
Siirry navigaatioon Siirry hakuun

Vahvistusoppiminen on koneoppimisen ongelmanratkaisutekniikka, jossa agentti tutkii ympäristöä, jonka tilan se havaitsee, ja toimii sen mukaisesti. Ympäristö antaa toiminnan mukaan palautteen, joka voi olla positiivista tai negatiivista. Algoritmi pyrkii löytämään ongelmaan ratkaisun, joka tuottaa eniten positiivista palautetta. Ongelman ympäristö on tyypillisesti äärellinen Markovin päätösprosessi.

Vahvistusoppiminen eroaa ohjatusta oppimisesta siten, että oikeita syöte-tulos-pareja ei tarvita, eikä heikkoja ratkaisuja varsinaisesti korjata. Tavoitteena voi olla elinikäinen oppiminen, johon kuuluu tasapainottelu tutkimattomien polkujen kartoittamisen ja tunnettujen reittien käyttämisen välillä.

Vahvistusoppimisen perusmalliin kuuluvat:

  1. tilajoukko S
  2. toimintojoukko A ja
  3. palkkioiden joukko, jossa r .

Kullakin hetkellä t agentti havaitsee tilan st S ja mahdollisten toimintojen joukon A(st). Agentti valitsee toiminnon aA(st) ja saa ympäristöltä uuden tilan st+1 sekä palkkion rt+1. Vuorovaikutuksen perusteella agentti muodostaa menettelytavan πぱい:SA, joka maksimoi summan R=r0+r1+...+rn Markovin päätösprosesseille joilla on lopputila, tai summan R=Σしぐまtγがんまtrt prosesseille, joilla ei ole lopputilaa.

Katso myös

Tämä tieteeseen liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.