Što je pojačano učenje? - Funkcija i razni faktori

Uvod u ojačavanje učenja

Ojačavanje učenja je vrsta strojnog učenja i stoga je također dio umjetne inteligencije, kad se primjenjuje na sustave, sustavi izvode korake i uče na temelju rezultata koraka kako bi postigli složeni cilj koji je sustav postavljen za postizanje.

Shvatite ojačavanje učenja

Pokušajmo pod djelovanjem učenja ojačanja s 2 jednostavna slučaja upotrebe:

Slučaj 1

U obitelji postoji dijete i ona je tek počela hodati i svi su prilično zadovoljni zbog toga. Jednog dana, roditelji pokušavaju postaviti cilj, pustimo dijete da stigne na kauč i vidimo je li dijete u stanju to učiniti.

Rezultat slučaja 1: Beba uspješno stiže u setnju i tako su svi u obitelji sretni što to vide. Odabrani put sada dolazi s pozitivnom nagradom.

Bodovi: Nagrada + (+ n) → Pozitivna nagrada.

Izvor: https://images.app.goo.gl/pGCXJ1N1bzLAer126

Slučaj # 2

Beba nije uspjela doći do kauča i dijete je propalo. To boli! Što bi možda mogao biti razlog? Na putu do kauča mogu postojati neke prepreke, a dijete je palo na prepreke.

Rezultat slučaja 2: Beba pada na neke prepreke i plače! Oh, bilo je loše, naučila je da sljedeći put ne upadnem u zamku prepreka. Odabrani put sada dolazi s negativnom nagradom.

Bodovi: Nagrade + (-n) → Negativna nagrada.

Izvor: https://images.app.goo.gl/FRfd8cUqrQRLe6sZ7

Sada smo vidjeli slučajeve 1 i 2, učenje pojačanja, u konceptu, čini isto, osim što nije ljudsko, već se izvodi računski.

Korištenje koraka za pojačanje

Razumijemo učenje ojačanja tako da postupno uvedemo sredstvo za pojačanje. U ovom primjeru, naš agent za učenje pojačanja je Mario koji će naučiti samostalno igrati:

Izvor: https://images.app.goo.gl/Kj44uvBzWzMw1QzE9

Trenutno stanje Mario igre okruženje je S_0. Jer igra još nije započela i Mario je na svom mjestu.
Zatim započinje igra i Mario kreće, Mario tj. RL agent poduzima i djeluje, recimo A_0.
Sada je stanje okruženja za igru postalo S_1.
Također, agentu RL-a, tj. Mariou je dodijeljeno neko pozitivno nagradu, R_1, vjerojatno zato što je Mario još uvijek živ i nije bilo opasnosti.

Sada će se gornja petlja nastaviti pokretati sve dok Mario konačno ne umre ili Mario ne dostigne svoje odredište. Ovaj će model kontinuirano izlaziti akcije, nagrade i stanja.

Nagrade za maksimizaciju

Cilj učvršćivanja učenja je povećati nagrade uzimajući u obzir i neke druge čimbenike poput popusta na nagrade; ukratko ćemo objasniti što se podrazumijeva pod popustom uz pomoć ilustracije.

Kumulativna formula za snižene nagrade je:

Nagrade s popustom

Shvatimo to na primjeru:

Na slici je cilj: miš u igri mora pojesti što više sira prije nego što ga mačka pojede ili bez elektrošokovanja.
Sada možemo pretpostaviti da što smo bliži mački ili električnoj zamci, veća je vjerojatnost da će miš pojesti ili šokirati.
To podrazumijeva, čak i ako imamo puni sir u blizini strujnog udara ili u blizini mačke, što je rizičnije ići tamo, bolje je jesti sir koji se nalazi u blizini kako ne bi bilo rizika.
Dakle, iako imamo jedan "blok1" sira koji je pun i udaljen je od mačke i bloka strujnog udara i drugi "blok2", koji je pun, ali je blizu mačke ili bloka strujnog udara, kasniji blok sira, tj. "block2", bit će diskontiran u nagradama od prethodnog.

Izvor: https://images.app.goo.gl/8QrH78FjmRVs5Wxk8

Izvor: https://cdn-images-1.medium.com/max/800/1*l8wl4hZvZAiLU56hT9vLlg.png.webp

Vrste usavršavanja učenja

Slijede dvije vrste učenja ojačanja s njihovim prednostima i nedostacima:

1. pozitivno

Kada se snaga i učestalost ponašanja povećaju zbog pojave nekog određenog ponašanja, to je poznato kao pozitivno učvršćivanje učenja.

Prednosti: Performanse su maksimizirane i promjena ostaje dulje vrijeme.

Nedostaci: Rezultati se mogu umanjiti ako imamo previše pojačanja.

2. negativan

To je jačanje ponašanja, uglavnom zbog toga što negativni pojam nestaje.

Prednosti: Ponašanje se povećava.

Nedostaci: Samo minimalno ponašanje modela može se postići uz učenje negativnog pojačanja.

Gdje se treba koristiti ojačavajućim učenjem?

Stvari koje se mogu učiniti pomoću pojačanog učenja / primjera. Ovo su područja u kojima se ovih dana koristi pojačanje:

Zdravstvo
Obrazovanje
Igre
Računalni vid
Poslovna uprava
Robotika
Financije
NLP (Obrada prirodnog jezika)
transport
energija

Karijere u poboljšanju učenja

Zaista postoji izvješće s web mjesta za posao, budući da je RL grana Strojnog učenja, sukladno izvještaju, Strojno učenje je najbolji posao 2019. Ispod je sažetak izvještaja. Prema trenutnim trendovima, inženjeri strojnog učenja dolaze s nevjerojatnom prosječnom plaćom od 146 085 dolara i sa stopom rasta od 344 posto.

Izvor: https://i0.wp.com/www.artificialintelligence-news.com/wp-content/uploads/2019/03/indeed-top-jobs-2019-best.jpg.webp?w=654&ssl=1

Vještine za ojačavanje učenja

Ispod je vještina potrebna za učenje ojačanja:

1. Osnovne vještine

Vjerojatnost
statistika
Modeliranje podataka

2. Vještine programiranja

Osnove programiranja i informatike
Dizajn softvera
Moguće je primijeniti knjižnice i algoritme strojnog učenja

3. Strojno učenje jezika programiranja

Piton
R
Iako postoje i drugi jezici na kojima se mogu oblikovati modeli strojnog učenja, kao što su Java, C / C ++, ali su Python i R jezici koji se najviše koriste.

Zaključak

U ovom smo članku započeli s kratkim upoznavanjem učenja o pojačanju, a zatim smo duboko zaronili u radu na RL-u i različitim čimbenicima koji su uključeni u rad RL modela. Tada smo dali nekoliko primjera iz stvarnog svijeta kako bismo još bolje shvatili temu. Na kraju ovog članka trebalo bi dobro razumjeti funkcioniranje učenja o pojačanju.

Preporučeni članci

Ovo je vodič Što je pojačano učenje ?. Ovdje ćemo raspravljati o funkciji i različitim čimbenicima koji su uključeni u razvoj modela ojačavanja učenja, s primjerima. Možete i pregledati naše druge povezane članke da biste saznali više -

Vrste algoritama strojnog učenja
Uvod u umjetnu inteligenciju
Alati za umjetnu inteligenciju
IoT platforma
Top 6 jezika za strojno učenje

Što je pojačano učenje? - Funkcija i razni faktori

Sadržaj:

Uvod u ojačavanje učenja

Shvatite ojačavanje učenja

Slučaj 1

Slučaj # 2

Korištenje koraka za pojačanje

Nagrade za maksimizaciju

Nagrade s popustom

Vrste usavršavanja učenja

1. pozitivno

2. negativan

Gdje se treba koristiti ojačavajućim učenjem?

Karijere u poboljšanju učenja

Vještine za ojačavanje učenja

1. Osnovne vještine

2. Vještine programiranja

3. Strojno učenje jezika programiranja

Zaključak

Preporučeni članci

Hadoop strujanje - Svrha korištenja Hadoop Streaminga

Hadoop Alati - Naučite različite alate Hadoopa sa njihovim značajkama

HADOOP vs RDBMS - Znajte 12 korisnih razlika

Hadoop vs Cassandra - saznajte 17 nevjerojatnih razlika

Hadoop vs Apache Spark - Zanimljive stvari koje trebate znati

Vodič za performanse mobilnih web usluga - eduCBA

Aplikacija za mobilne igre - 4 korisna savjeta i razine za izgradnju aplikacije za mobilne igre.

Mobx vs Redux - Top 8 korisnih razlika koje biste trebali znati

Tržište novca vs tržište kapitala - 10 najboljih razlika (sa infografikom)

Novac prema valuti - Top 5 najboljih razlika koje biste trebali znati

Samba Server u Linuxu - Kompletan vodič za Samba Server u Linuxu

Plaća analitičara hedge fondova - Kako postati analitičar hedge fondova

Prodaja vs marketing - Otkrijte 6 najneverovatnijih razlika

Razvoj prodaje - 10 najboljih savjeta i tehnika za razvoj prodaje

Trčanje ukupno u Excelu - Metode za pronalaženje ukupnog trčanja u Excelu