Uvođenje ETL procesa
ETL je jedan od važnih procesa koji zahtijeva Business Intelligence. Business Intelligence se oslanja na podatke pohranjene u skladištima podataka iz kojih se generiraju mnoge analize i izvješća koja pomažu u izgradnji učinkovitijih strategija i vode taktičkim i operativnim uvidima i odlučivanju.
ETL se odnosi na postupak ekstrakcije, pretvaranja i učitavanja. To je svojevrsni korak integracije podataka gdje se podaci koji dolaze iz različitih izvora izvlače i šalju u skladišta podataka. Podaci se izdvajaju iz različitih resursa najprije se transformiraju kako bi se pretvorili u određeni format prema poslovnim zahtjevima. Različiti alati koji pomažu u obavljanju ovih zadataka su:
- IBM DataStage
- Abinitio
- Informatica
- tablo
- Talend
ETL postupak
Kako radi?
ETL postupak je postupak u 3 koraka koji započinje vađenjem podataka iz različitih izvora podataka, a zatim sirovi podaci prolaze različite transformacije kako bi ga učinili prikladnim za pohranu u skladište podataka i učitali ga u skladišta podataka u potrebnom formatu i učinili ga spremnim za analiza.
Korak 1: Ekstrakt
Ovaj se korak odnosi na dohvaćanje potrebnih podataka iz različitih izvora koji su prisutni u različitim formatima, kao što su XML, Hadoop datoteke, ravne datoteke, JSON itd. Izdvajani podaci pohranjuju se u inscenacijsko područje gdje se provode daljnje transformacije. Stoga se podaci temeljito provjeravaju prije premještanja u skladišta podataka, jer će u protivnom postati povratak promjenama u skladištima podataka.
Potrebna je odgovarajuća mapa podataka između izvora i cilja prije nego što se dogodi ekstrakcija podataka jer ETL proces treba komunicirati s različitim sustavima kao što su Oracle, Hardware, Mainframe, sustavima u stvarnom vremenu kao što su ATM, Hadoop, itd., Dok dohvaća podatke iz tih sustava,
Napomena - Ali treba paziti da ti sustavi ne smiju ostati pogođeni tijekom ekstrakcije.
Strategije vađenja podataka
- Potpuno izdvajanje: Ovo slijedi kada se čitavi podaci iz izvora učitavaju u skladišta podataka koja pokazuju da se bilo skladište podataka prvi put popuni ili nije napravljena strategija za vađenje podataka.
- Djelomična ekstrakcija (s obavijesti o ažuriranju): Ova strategija je također poznata delta, gdje se vade samo podaci koji se mijenjaju i ažuriraju skladišta podataka
- Djelomična ekstrakcija (bez obavijesti o ažuriranju): Ova se strategija odnosi na izdvajanje određenih potrebnih podataka iz izvora prema opterećenju u skladištima podataka, umjesto izdvajanja cijelih podataka.
2. korak: transformirati
Ovaj korak je najvažniji korak ETL-a. U ovom se koraku provode mnoge transformacije kako bi se podaci pripremili za učitavanje u skladištima podataka primjenom transformacija ispod: -
A. Osnovne transformacije: Ove se transformacije primjenjuju u svakom scenariju jer su osnovna potreba za vrijeme učitavanja podataka koji su izvađeni iz različitih izvora, u skladišta podataka
- Čišćenje ili obogaćivanje podataka: Odnosi se na čišćenje nepoželjnih podataka s područja postavljanja kako se pogrešni podaci ne bi učitali iz skladišta podataka.
- Filtriranje: Ovdje filtriramo potrebne podatke iz velike količine podataka u skladu s poslovnim zahtjevima. Na primjer, za generiranje izvještaja o prodaji potrebna su samo evidencija o prodaji za tu određenu godinu.
- Konsolidacija: Izvađeni podaci se konsolidiraju u traženom formatu prije nego što se učitaju u skladišta podataka.4.
- Standardizacija: Polja podataka se transformišu tako da ih dovode u istom traženom formatu, npr., Podatkovno polje mora biti specificirano kao MM / DD / GGGG.
B. Napredne transformacije: Ove su vrste transformacija specifične za poslovne zahtjeve.
- Spajanje: U ovoj se operaciji podaci iz dva ili više izvora kombiniraju t generiraju podatke samo sa željenim stupovima s retcima koji su povezani jedan s drugim.
- Provjera valjanosti praga podataka: Vrijednosti prisutne u raznim poljima provjeravaju se jesu li ispravne ili nisu, kao što su nevažeći broj bankovnog računa u slučaju bankovnih podataka.
- Upotrijebite pretraživačke podatke za spajanje podataka: Za izdvajanje određenih podataka koriste se različite ravne datoteke ili druge datoteke izvodeći operacije pretraživanja na tome.
- Korištenje bilo koje složene provjere podataka: Mnoge složene provjere valjanosti primjenjuju se samo za izvlačenje valjanih podataka iz izvornih sustava.
- Proračunate i dobivene vrijednosti: Za pretvaranje podataka u neke potrebne podatke primjenjuju se različiti proračuni
- Umnožavanje: Duplikatni podaci koji dolaze iz izvornih sustava analiziraju se i uklanjaju prije nego što se učitaju u skladišta podataka.
- Restrukturiranje ključeva: U slučaju hvatanja podataka koji se polako mijenjaju, potrebno je stvoriti razne surogatne ključeve za strukturiranje podataka u potrebnom formatu.
Napomena - MPP-Massive Paralelna obrada ponekad se koristi za izvođenje nekih osnovnih operacija, poput filtriranja ili čišćenja podataka u području inscenacije za bržu obradu velike količine podataka.
Korak 3: Učitajte
Ovaj se korak odnosi na učitavanje transformiranih podataka u skladište podataka odakle se mogu koristiti za generiranje mnogih analitičkih odluka kao i za izvještavanje.
1. Početno opterećenje: Ova vrsta opterećenja nastaje prilikom prvog učitavanja podataka u skladišta podataka.
2. Povećavajuće opterećenje: Ovo je vrsta opterećenja koja se povremeno ažurira skladište podataka s promjenama koje se događaju u podacima izvornog sustava.
3. Potpuno osvježavanje: Ova vrsta opterećenja odnosi se na situaciju kada se potpuni podaci tablice brišu i učitavaju svježi podaci.
Skladište podataka tada omogućuje OLAP ili OLTP značajke.
Nedostaci ETL postupka
- Povećanje podataka - postoji ograničenje podataka koje se pomoću ETL alata izvlače iz različitih izvora i guraju u skladišta podataka. Stoga s porastom podataka rad s alatom ETL i skladištima podataka postaje nezgrapan.
- Prilagodba - odnosi se na brza i učinkovita rješenja ili odgovore na podatke koje generiraju izvorni sustavi. Ali korištenje ETL alata ovdje usporava taj proces.
- Skupo - Korištenje skladišta podataka za pohranjivanje sve veće količine podataka koje se generiraju periodično je visok trošak koji organizacija mora platiti.
Zaključak - ETL postupak
ETL alat uključuje procese ekstrakcije, transformacije i učitavanja gdje pomaže u generiranju podataka iz podataka prikupljenih iz različitih izvornih sustava. Podaci iz izvornog sustava mogu doći u bilo kojem formatu i mogu se učitati u bilo kojem željenom formatu u skladištima podataka, tako da ETL alat mora podržavati povezanost sa svim vrstama tih formata.
Preporučeni članci
Ovo je vodič za ETL postupak. Ovdje smo raspravljali o uvodu, Kako to djeluje ?, ETL Alati i njegovi nedostaci. Možete i proći kroz naše druge predložene članke da biste saznali više -
- ETL Alati Informatica
- Alati za testiranje ETL-a
- Što je ETL?
- Što je ETL testiranje?