Uvođenje ETL procesa

ETL je jedan od važnih procesa koji zahtijeva Business Intelligence. Business Intelligence se oslanja na podatke pohranjene u skladištima podataka iz kojih se generiraju mnoge analize i izvješća koja pomažu u izgradnji učinkovitijih strategija i vode taktičkim i operativnim uvidima i odlučivanju.

ETL se odnosi na postupak ekstrakcije, pretvaranja i učitavanja. To je svojevrsni korak integracije podataka gdje se podaci koji dolaze iz različitih izvora izvlače i šalju u skladišta podataka. Podaci se izdvajaju iz različitih resursa najprije se transformiraju kako bi se pretvorili u određeni format prema poslovnim zahtjevima. Različiti alati koji pomažu u obavljanju ovih zadataka su:

  • IBM DataStage
  • Abinitio
  • Informatica
  • tablo
  • Talend

ETL postupak

Kako radi?

ETL postupak je postupak u 3 koraka koji započinje vađenjem podataka iz različitih izvora podataka, a zatim sirovi podaci prolaze različite transformacije kako bi ga učinili prikladnim za pohranu u skladište podataka i učitali ga u skladišta podataka u potrebnom formatu i učinili ga spremnim za analiza.

Korak 1: Ekstrakt

Ovaj se korak odnosi na dohvaćanje potrebnih podataka iz različitih izvora koji su prisutni u različitim formatima, kao što su XML, Hadoop datoteke, ravne datoteke, JSON itd. Izdvajani podaci pohranjuju se u inscenacijsko područje gdje se provode daljnje transformacije. Stoga se podaci temeljito provjeravaju prije premještanja u skladišta podataka, jer će u protivnom postati povratak promjenama u skladištima podataka.

Potrebna je odgovarajuća mapa podataka između izvora i cilja prije nego što se dogodi ekstrakcija podataka jer ETL proces treba komunicirati s različitim sustavima kao što su Oracle, Hardware, Mainframe, sustavima u stvarnom vremenu kao što su ATM, Hadoop, itd., Dok dohvaća podatke iz tih sustava,

Napomena - Ali treba paziti da ti sustavi ne smiju ostati pogođeni tijekom ekstrakcije.

Strategije vađenja podataka
  • Potpuno izdvajanje: Ovo slijedi kada se čitavi podaci iz izvora učitavaju u skladišta podataka koja pokazuju da se bilo skladište podataka prvi put popuni ili nije napravljena strategija za vađenje podataka.
  • Djelomična ekstrakcija (s obavijesti o ažuriranju): Ova strategija je također poznata delta, gdje se vade samo podaci koji se mijenjaju i ažuriraju skladišta podataka
  • Djelomična ekstrakcija (bez obavijesti o ažuriranju): Ova se strategija odnosi na izdvajanje određenih potrebnih podataka iz izvora prema opterećenju u skladištima podataka, umjesto izdvajanja cijelih podataka.

2. korak: transformirati

Ovaj korak je najvažniji korak ETL-a. U ovom se koraku provode mnoge transformacije kako bi se podaci pripremili za učitavanje u skladištima podataka primjenom transformacija ispod: -

A. Osnovne transformacije: Ove se transformacije primjenjuju u svakom scenariju jer su osnovna potreba za vrijeme učitavanja podataka koji su izvađeni iz različitih izvora, u skladišta podataka

  • Čišćenje ili obogaćivanje podataka: Odnosi se na čišćenje nepoželjnih podataka s područja postavljanja kako se pogrešni podaci ne bi učitali iz skladišta podataka.
  • Filtriranje: Ovdje filtriramo potrebne podatke iz velike količine podataka u skladu s poslovnim zahtjevima. Na primjer, za generiranje izvještaja o prodaji potrebna su samo evidencija o prodaji za tu određenu godinu.
  • Konsolidacija: Izvađeni podaci se konsolidiraju u traženom formatu prije nego što se učitaju u skladišta podataka.4.
  • Standardizacija: Polja podataka se transformišu tako da ih dovode u istom traženom formatu, npr., Podatkovno polje mora biti specificirano kao MM / DD / GGGG.

B. Napredne transformacije: Ove su vrste transformacija specifične za poslovne zahtjeve.

  • Spajanje: U ovoj se operaciji podaci iz dva ili više izvora kombiniraju t generiraju podatke samo sa željenim stupovima s retcima koji su povezani jedan s drugim.
  • Provjera valjanosti praga podataka: Vrijednosti prisutne u raznim poljima provjeravaju se jesu li ispravne ili nisu, kao što su nevažeći broj bankovnog računa u slučaju bankovnih podataka.
  • Upotrijebite pretraživačke podatke za spajanje podataka: Za izdvajanje određenih podataka koriste se različite ravne datoteke ili druge datoteke izvodeći operacije pretraživanja na tome.
  • Korištenje bilo koje složene provjere podataka: Mnoge složene provjere valjanosti primjenjuju se samo za izvlačenje valjanih podataka iz izvornih sustava.
  • Proračunate i dobivene vrijednosti: Za pretvaranje podataka u neke potrebne podatke primjenjuju se različiti proračuni
  • Umnožavanje: Duplikatni podaci koji dolaze iz izvornih sustava analiziraju se i uklanjaju prije nego što se učitaju u skladišta podataka.
  • Restrukturiranje ključeva: U slučaju hvatanja podataka koji se polako mijenjaju, potrebno je stvoriti razne surogatne ključeve za strukturiranje podataka u potrebnom formatu.

Napomena - MPP-Massive Paralelna obrada ponekad se koristi za izvođenje nekih osnovnih operacija, poput filtriranja ili čišćenja podataka u području inscenacije za bržu obradu velike količine podataka.

Korak 3: Učitajte

Ovaj se korak odnosi na učitavanje transformiranih podataka u skladište podataka odakle se mogu koristiti za generiranje mnogih analitičkih odluka kao i za izvještavanje.

1. Početno opterećenje: Ova vrsta opterećenja nastaje prilikom prvog učitavanja podataka u skladišta podataka.

2. Povećavajuće opterećenje: Ovo je vrsta opterećenja koja se povremeno ažurira skladište podataka s promjenama koje se događaju u podacima izvornog sustava.

3. Potpuno osvježavanje: Ova vrsta opterećenja odnosi se na situaciju kada se potpuni podaci tablice brišu i učitavaju svježi podaci.

Skladište podataka tada omogućuje OLAP ili OLTP značajke.

Nedostaci ETL postupka

  1. Povećanje podataka - postoji ograničenje podataka koje se pomoću ETL alata izvlače iz različitih izvora i guraju u skladišta podataka. Stoga s porastom podataka rad s alatom ETL i skladištima podataka postaje nezgrapan.
  2. Prilagodba - odnosi se na brza i učinkovita rješenja ili odgovore na podatke koje generiraju izvorni sustavi. Ali korištenje ETL alata ovdje usporava taj proces.
  3. Skupo - Korištenje skladišta podataka za pohranjivanje sve veće količine podataka koje se generiraju periodično je visok trošak koji organizacija mora platiti.

Zaključak - ETL postupak

ETL alat uključuje procese ekstrakcije, transformacije i učitavanja gdje pomaže u generiranju podataka iz podataka prikupljenih iz različitih izvornih sustava. Podaci iz izvornog sustava mogu doći u bilo kojem formatu i mogu se učitati u bilo kojem željenom formatu u skladištima podataka, tako da ETL alat mora podržavati povezanost sa svim vrstama tih formata.

Preporučeni članci

Ovo je vodič za ETL postupak. Ovdje smo raspravljali o uvodu, Kako to djeluje ?, ETL Alati i njegovi nedostaci. Možete i proći kroz naše druge predložene članke da biste saznali više -

  1. ETL Alati Informatica
  2. Alati za testiranje ETL-a
  3. Što je ETL?
  4. Što je ETL testiranje?

Kategorija: