Uvod u podmetanje i jačanje

Dvije i popularne metode su dvije popularne metode ansambla. Dakle, prije nego što razumijemo Bagging i pojačanje, neka ima ideju što je ansambl Učenje. To je tehnika korištenja više algoritama učenja za obučavanje modela s istim podacima da bi se postiglo predviđanje u strojnom učenju. Nakon dobivanja predviđanja za svaki model koristit ćemo tehnike prosječenja modela kao što su ponderirani prosjek, varijanca ili maksimalno glasanje da bismo dobili konačno predviđanje. Ova metoda ima za cilj dobiti bolja predviđanja od pojedinog modela. To rezultira boljom preciznošću, izbjegavajući prekomjerno opremanje i smanjuje pristranost i ko-razlike. Dvije popularne metode ansambla su:

  1. Kovanje (agregiranje čizme)
  2. Jačanje

Pakiranje:

Torba, poznata i pod nazivom Bootstrap Agregiranje, koristi se za poboljšanje točnosti i čini model općenitijim smanjujući varijancu, tj. Izbjegavajući prekomjerno uklapanje. U ovom slučaju uzimamo više podskupina baze podataka treninga. Za svaku podskupinu uzimamo model s istim algoritmima učenja kao što su stablo odluka, logistička regresija itd. Za predviđanje rezultata za isti skup testnih podataka. Nakon što imamo predviđanje za svaki model, tada koristimo tehniku ​​prosječenja modela da bismo dobili konačni ishod predviđanja. Jedna od poznatih tehnika koja se koristi u baganju je slučajna šuma . U Random šumi koristimo više stabala odlučivanja.

Pojačavanje :

Pojačavanje se prvenstveno koristi za smanjenje pristranosti i varijanci u kontroliranoj tehnici učenja. Odnosi se na algoritam obitelji koji slabe učenike (osnovni učenik) pretvara u snažne učenike. Slabi učenik su klasifikatori koji su samo u maloj mjeri točni s stvarnom klasifikacijom, dok su jaki učenici oni klasifikatori koji su dobro povezani sa stvarnom klasifikacijom. Nekoliko poznatih tehnika pojačavanja su AdaBoost, GRADIENT BOOSTING, XgBOOST (Extreme Gradient Boosting). Dakle, sada znamo što su punjenje i jačanje i koje su njihove uloge u Strojnom učenju.

Obrada podmetanja i poticanje

Sada shvatimo kako funkcionira izrada dasaka i poticanje:

Pakiranje

Da bismo razumjeli rad Baginga, pretpostavimo da imamo N broj modela i skup podataka D. Gdje je m broj podataka, a n je broj značajki u svakom podacima. A mi bi trebali vršiti binarnu klasifikaciju. Prvo ćemo podijeliti skup podataka. Za sada ćemo ovaj skup podataka podijeliti samo u trening i test skup. Nazovimo skup podataka o treningu kao gdje je ukupni broj primjera treninga.

Uzmi uzorak zapisa sa skupa za trening i upotrijebi ga za obuku prvog modela recimo m1. Za sljedeći model m2 ponovo prilagodite set za trening i uzmite još jedan uzorak iz kompleta za trening. To ćemo učiniti za N broj modela. Budući da reorganiziramo skup podataka treninga i uzimamo uzorke iz njega, a da ništa ne uklonimo iz skupa podataka, možda je moguće da imamo dva ili više zapisa podataka o treningu zajedničkih u više uzoraka. Ova tehnika preraspodjele baze podataka o treningu i pružanje uzorka modelu naziva se uzorkovanje reda s zamjenom. Pretpostavimo da smo obučili svaki model i sada želimo vidjeti predviđanje testnih podataka. Budući da radimo na izlazu binarne klasifikacije može biti ili 0 ili 1. Testni skup podataka prosljeđuje se na svaki model, a za svaki model dobivamo predviđanje. Recimo da je od N modela više od N / 2 modela predviđalo da će biti 1, stoga korištenjem tehnike prosječnog modela poput maksimalnog glasanja možemo reći da je predviđeni izlaz za testne podatke 1.

Jačanje

Pojačavanjem uzimamo zapise iz skupa podataka i prenosimo ih temeljnim učenicima, ovdje osnovni polaznici mogu biti bilo koji model. Pretpostavimo da imamo m broj zapisa u skupu podataka. Zatim prosljeđujemo nekoliko zapisa u bazu BL1 i uvježbavamo je. Nakon što se BL1 osposobi, tada prosljeđujemo sve zapise iz skupa podataka i gledamo kako osnovni učitelj radi. Za sve zapise koje osnovni učenik pogrešno klasificira, samo ih uzimamo i prosljeđujemo drugom učeniku, recimo BL2, i istovremeno prenosimo pogrešne zapise klasificirane od strane BL2 da bi trenirali BL3. To će se nastaviti osim ako i dok ne odredimo određeni broj osnovnih modela učenika koji nam trebaju. Konačno, kombiniramo izlazni rezultat ovih baznih učenika i stvaramo snažnog učenika, što rezultira poboljšanjem snage predviđanja modela. U redu. Dakle, sada znamo kako funkcioniraju Baging and Boosting.

Prednosti i nedostaci kesa i poticanja

U nastavku su navedene glavne prednosti i nedostaci.

Prednosti vrećice

  • Najveća prednost pakiranja u vrećama je to što više slabih učenika može raditi bolje od jednog snažnog učenika.
  • Pruža stabilnost i povećava točnost algoritma strojnog učenja koji se koristi u statističkoj klasifikaciji i regresiji.
  • Pomaže u smanjenju varijance, tj. Izbjegava prekomjerno uklapanje.

Nedostaci vreće

  • Može doći do velike pristranosti ako se ne modelira pravilno i na taj način može rezultirati nedovoljnim zadovoljavanjem.
  • Budući da moramo koristiti više modela, računski postaje skupo i možda nije prikladan u različitim slučajevima uporabe.

Prednosti poticanja

  • To je jedna od najuspješnijih tehnika rješavanja problema dvostupne klasifikacije.
  • Dobro je rukovanje podacima koji nedostaju.

Nedostaci pojačanja

  • Pojačavanje je teško provoditi u stvarnom vremenu zbog povećane složenosti algoritma.
  • Velika fleksibilnost ove tehnike rezultira s višestrukim brojem parametara nego što imaju izravan utjecaj na ponašanje modela.

Zaključak

Glavni potez je da je bagging i poticanje paradigma strojnog učenja u kojoj koristimo više modela kako bismo riješili isti problem i postigli bolje performanse. Ako pravilno kombiniramo slabe učenike, tada možemo dobiti stabilan, točan i robustan model. U ovom sam članku dao osnovni pregled podmetanja i poticanja. U narednim člancima upoznat ćete različite tehnike koje se koriste u oba. Za kraj ću zaključiti podsjećanjem da su bagovanje i poticanje jedna od najčešće korištenih tehnika učenja ansambla. Prava umjetnost poboljšanja performansi leži u vašem razumijevanju kada koristiti koji model i kako prilagoditi hiperparametre.

Preporučeni članci

Ovo je vodič za pakiranje i jačanje. Ovdje smo raspravljali o Uvodu u pohranu i jačanje te djelujemo zajedno s prednostima i nedostacima. Možete i proći naše druge predložene članke da biste saznali više -

  1. Uvod u ansamblove tehnike
  2. Kategorije algoritama strojnog učenja
  3. Algoritam za jačanje gradijenta s uzorkom kod
  4. Što je poticajni algoritam?
  5. Kako stvoriti stablo odluka?

Kategorija: