Uvod u modele strojnog učenja

Pregled različitih modela strojnog učenja koji se koriste u praksi. Prema definiciji, model strojnog učenja je matematička konfiguracija dobivena nakon primjene specifičnih metodologija strojnog učenja. Korištenje širokog spektra API-ja, danas je izrada modela strojnog učenja prilično ravna prema naprijed s manje linija kodova. Ali prava vještina profesionalne primijenjene znanosti leži u odabiru ispravnog modela temeljenog na izjavi problema i unakrsnoj validaciji, umjesto da slučajno bacaju podatke u maštovite algoritme. U ovom ćemo članku raspravljati o različitim modelima strojnog učenja i kako ih učinkovito koristiti na temelju vrste problema s kojima se susreću.

Vrste modela strojnog učenja

Na temelju vrste zadataka, modele strojnog učenja možemo klasificirati u sljedeće vrste:

  • Modeli klasifikacije
  • Regresijski modeli
  • grupiranje
  • Smanjenje dimenzija
  • Duboko učenje itd.

1) Klasifikacija

S obzirom na strojno učenje, klasifikacija je zadaća predviđanja vrste ili klase objekta unutar ograničenog broja opcija. Izlazna varijabla za klasifikaciju uvijek je kategorijska varijabla. Na primjer, predviđanje e-pošte je neželjena pošta ili je ne standardan zadatak binarne klasifikacije. Sada zabilježimo neke važne modele za klasifikacijske probleme.

  1. K-najbliži susedski algoritam - jednostavan, ali računski iscrpan.
  2. Naivni Bayes - temeljen na Bayesovom teoremu.
  3. Logistička regresija - Linearni model za binarnu klasifikaciju.
  4. SVM - može se koristiti za binarne / višerazredne klasifikacije.
  5. Stablo odluka - klasifikator temeljen na El Else , robusniji za odlaske.
  6. Ansambli - Kombinacija više modela strojnog učenja složenima zajedno da biste postigli bolje rezultate.

2) regresija

Regresija učenja u stroju je skup problema kod kojih izlazna varijabla može uzimati kontinuirane vrijednosti. Na primjer, predviđanje avionske cijene može se smatrati standardnim regresijskim zadatkom. Zabilježimo neke važne regresijske modele koji se koriste u praksi.

  1. Linearna regresija - Najjednostavniji osnovni model za regresijski zadatak, dobro funkcionira samo kad su podaci linearno odvojivi i vrlo je malo ili nema multikolinearnosti.
  2. Lasso regresija - linearna regresija s L2 regularizacijom.
  3. Regresija grebena - Linearna regresija s L1 regularizacijom.
  4. SVM regresija
  5. Regresija stabla odluke itd.

3) Klasteriranje

Jednostavnim riječima, grupiranje je zadatak grupiranja sličnih objekata. Modeli strojnog učenja pomažu automatski prepoznavanje sličnih objekata bez ručne intervencije. Ne možemo izgraditi učinkovite nadzirane modele strojnog učenja (modeli koje je potrebno osposobljavati s ručno koriziranim ili označenim podacima) bez homogenih podataka. Klasteriranje nam pomaže da to postignemo na pametniji način. Evo nekoliko široko korištenih modela klasteriranja:

  1. K znači - Jednostavno, ali pati od velike varijance.
  2. K znači ++ - Modificirana verzija K znači.
  3. K medoidi.
  4. Aglomerativno klasteriranje - hijerarhijski model klasteriranja.
  5. DBSCAN - algoritam klasteriranja temeljen na gustoći itd.

4) Smanjenje dimenzija

Dimenzionalnost je broj varijabli predviđanja koje se koriste za predviđanje nezavisne varijable ili target.often u skupima podataka u stvarnom svijetu broj varijabli je previsok. Previše varijabli također donosi kletvu prekomjernog uklapanja u modele. U praksi među ovim velikim brojem varijabli, sve varijable ne doprinose jednakom cilju i u velikom broju slučajeva zapravo možemo sačuvati varijance s manjim brojem varijabli. Navedimo nekoliko često korištenih modela za smanjenje dimenzija.

  1. PCA - stvara manji broj novih varijabli od velikog broja prediktora. Nove varijable su neovisne jedna o drugoj, ali manje interpretabilne.
  2. TSNE - Omogućuje ugradnju nižih dimenzija točaka podataka veće dimenzije.
  3. SVD - Jednostruka razgradnja vrijednosti koristi se za dekompoziciju matrice na manje dijelove u svrhu učinkovitog izračuna.

5) Duboko učenje

Duboko učenje je podskup strojnog učenja koji se bavi neuronskim mrežama. Na temelju arhitekture neuronskih mreža, nabrojimo važne modele dubokog učenja:

  1. Višeslojni perceptron
  2. Konvolucijske neuronske mreže
  3. Ponavljajuće neuronske mreže
  4. Boltzmannov stroj
  5. Autoenkoderi itd.

Koji je model najbolji?

Iznad smo uzeli ideje o puno modela strojnog učenja. Sada nam pada na pamet očito pitanje "Koji je najbolji model među njima?" Ovisi o problemu koji je trenutačno i drugim pridruženim atributima poput odmica, količini dostupnih podataka, kvaliteti podataka, inženjeringu značajki itd. U praksi je uvijek poželjno započeti s najjednostavnijim modelom koji se može primijeniti na problem i povećati složenost postupno pravilnim podešavanjem parametara i unakrsnom provjerom. U svijetu znanosti o podacima postoji poslovica - "unakrsna provjera pouzdanija je od znanja o domeni".

Kako izgraditi model?

Pogledajmo kako izgraditi jednostavan logistički regresijski model pomoću Scikit Learn biblioteke pythona. Radi jednostavnosti, pretpostavljamo da je problem standardni model klasifikacije, a 'train.csv' je vlak, a 'test.csv' vlak, odnosno testni podaci.

Zaključak

U ovom smo članku raspravljali o važnim modelima strojnog učenja koji se koriste u praktične svrhe i kako izgraditi jednostavan model strojnog učenja u pythonu. Odabir odgovarajućeg modela za određeni slučaj upotrebe vrlo je važan za postizanje pravog rezultata zadatka strojnog učenja. Za usporedbu performansi između različitih modela, mjerni pokazatelji ili KPI-i definirani su za određene poslovne probleme, a za proizvodnju se odabire najbolji model nakon primjene statističke provjere uspješnosti.

Preporučeni članci

Ovo je vodič za modele strojnog učenja. Ovdje smo raspravljali o top 5 vrsta modela strojnog učenja s njegovom definicijom. Možete i proći naše druge predložene članke da biste saznali više -

  1. Metode strojnog učenja
  2. Vrste strojnog učenja
  3. Algoritmi strojnog učenja
  4. Što je strojno učenje?
  5. Strojno učenje hiperparametara
  6. KPI u Power BI-u
  7. Hijerarhijski algoritam klasteriranja
  8. Hijerarhijsko grupiranje | Aglomerativno i podjeljeno grupiranje

Kategorija: