Page Nav

HIDE
FALSE
TRUE

Pages

Classic Header

{fbt_classic_header}
header

Reinforcement learning 2.0 - dinamikus cél-szándék-akarat funkciók alkalmazása

 A Mesterséges Intelligencia (AI) alapú rendszerek fejlesztésének egyik alapvető kihívása, hogy a rendszer önállóan, de irányítható módon le...


 A Mesterséges Intelligencia (AI) alapú rendszerek fejlesztésének egyik alapvető kihívása, hogy a rendszer önállóan, de irányítható módon legyen képes feladatot végezni, meghatározott célt elérni. Az ideálisan működő AI rendszer számára elegendő csupán a feladatot, a célt kijelölni. Az AI a számára rendelkezésre álló érzékelő és a beavatkozást végző eszközei segítségével a feladat elvégzésének érdekében önállóan a kijelölt cél irányába tevékenykedik.

A biológiai rendszerekben az önálló célirányos működést a szándék és az akarat evolúció által kialakított funkciói biztosítják. Még a primitív, egysejtű, aggyal nem rendelkező élőlényeknél is felismerhető a célirányos viselkedés. A szándék és akarat alapvető funkciója az önálló működésnek.

Az önálló és célirányos működést a szándék és akarat, azaz a motiváció beépítése teszi lehetővé az irányító rendszerbe.

Az evolúció a motivált működést, a szándék és akarat funkcióit a kedvező és kedvezőtlen helyzet érzékelésével és belső jutalmazási és büntetési folyamatok funkcióinak kialakításával valósította meg. A megfelelően alkalmas biológiai rendszer motiváció, belső jutalmazás és büntetés által vezérelve az adott környezethez tanulás során alkalmazkodva hajtja végre az evolúció által kialakított feladatát.

Az AI legújabb kísérlete egy meghatározott feladat automatikus elvégzésére a tanulás eszközével a reinforcement learning alapú irányítási módszer.

A reinforcement learning a programozó számára egyszerűbbé teszi a gépi tanulási folyamatot, mert univerzális módszert alkalmaz. Az irányító rendszernek nem kell előzetesen ismernie a környezetet, elegendő a környezetet csak megfigyelni, és elegendő csak azt vizsgálni, hogy a környezet hogyan hat a gépre. A gép szintén rendelkezik egy eszközrendszerrel, amellyel képes a környezetre hatni, és ezzel befolyásolni azt.

A reinforcement learning módszer alkalmazása során a programozó meghatároz, kijelöl egy célt vagy állapotot, amelyet a környezetbe helyezett géppel el akar érni, vagy fenn akar tartani. A programozó továbbá egy értékelést épít még be az irányító rendszerbe, amely megmutatja, hogy a környezet kedvező vagy kedvezőtlen hatást vált ki a meghatározott cél elérése vagy az állapot fenntartása szempontjából.

A gép a működése során hat a környezetére. Az irányító rendszernek nem kell ismernie a környezetet, csupán figyelnie és értékelnie, hogy a beavatkozás milyen hatású válaszreakciót vált ki. A reinforcement learning alapú AI önmagától cselekszik. Kezdetben véletlenszerűen avatkozik be a környezetbe. Ha a gép által kiadott akció kedvező válaszreakciót vált ki a környezetben, az adott akció megerősítést nyer, ha nem kedvező a reakció, akkor az akció elvetésre kerül. A gép a működése során egyre célirányosabban és egyre hatékonyabban működik miközben a cél elvégzése irányába törekszik.

Jól látható, hogy a reinforcement learning alapú AI a jutalmazás és a büntetés alkalmazásával a biológiai rendszereknél alkalmazott motiváció alapú irányítási rendszert igyekszik megvalósítani.

Ez az irányítási mechanizmus megfogalmazásra került az UAA-System leírásakor

A reinforcement learning egy lépés az szándék alapú rendszerek felé. A reinforcement learning eljárás előre meghatározott jutalom-büntetés rendszere megfeleltethető az evolúció által beprogramozott cél-szándék-akarat funkcióinak. (Az UAA-System leírásakor ez a funkció az elsődleges kritikus inger meghatározással szerepel.) 

A biológiai agy által használt motivációs mechanizmusok azonban nem csupán az evolúció által az egyénben mereven rögzített cél-szándék-akarat funkciók alkalmazásra épül. Az agy nem csupán megtanulja a környezetét az előre meghatározott motivációs rendszere alapján, hanem önállóan, külső beavatkozás nélkül, rugalmasan, és az elérendő célnak megfelelően képes a motivációs rendszerét módosítani is.

Az agy az evolúció által előre beprogramozott jutalom-büntetés rendszert asszociatív idegrendszeri folyamatokkal, tanulással (az ingerek között új kritikus ingert felfedezve, régi, nem használt vagy hibásan működő korábban felfedezett kritikus ingert elfelejtve) folyamatosan és dinamikusan változó, hierarchizált jutalom-büntetés rendszert épít fel, és használ. (Az UAA-System leírásakor ez a funkció másodlagos kritikus inger meghatározással szerepel.)

A másodlagos kritikus inger struktúrának a tanulás útján történő folyamatos és dinamikus módosítása minőségileg hatékonyabbá teszi a rendszert a környezethez történő alkalmazkodásban és a kijelölt cél elérésében.

A dinamikus jutalmazás-büntetés struktúra egyben az önállóan működő rendszert a másodlagos kritikus ingerek külső módosításával az önálló működés megtartása mellett irányíthatóvá is teszi. (link)

Az irányíthatóság a másodlagos kritikus ingerek módosításával nem direkt és közvetlen irányítást jelent, nem közvetlen irányítást tesz lehetővé, hanem közvetett módon, a cél-szándék-akarat kívülről történő módosítása által közvetetten módosíthatjuk a gép motivációt, egyben megtartva az önálló működés képességét is.

Az AI rendszerek teljesítménye exponenciális fejlődést tesz lehetővé, mert a biológiai agy adottságaival szemben az AI nem rendelkezik hardver korláttal a számítási kapacitásokban. A reinforcement learning alapú AI rendszerek már jelenleg is számos területen felette állnak az emberi képességeknek. Az önálló tanulás útján kialakuló hierarchikus és dinamikus jutalom-büntetés rendszer, a dinamikusan változó másodlagos kritikus inger struktúra minőségi fejlődési lépést biztosít a reinforcement learning alapú irányítási rendszerek számára. A motivációs rendszer külső, a programozó általi módosítása egyben az önállóan működő rendszer irányíthatóságát teszi lehetővé. Az AI rendszerekben ez által a dinamikus motiváció, a cél-szándék-akarat funkciói kerülhetnek dinamikus megvalósításra.



Nincsenek megjegyzések