Uvod u R CSV datoteke

CSV datoteke naširoko se koriste za pohranjivanje podataka u tabličnom obliku, a svaki redak je zapis podataka. Da bismo mogli čitati, pisati ili manipulirati podacima na R-u, moramo imati na raspolaganju neke podatke. Podaci se mogu naći na internetu ili se mogu prikupiti iz različitih izvora, kao što su ankete. Pomoću R možete čitati, pisati i uređivati ​​podatke koji se pohranjuju u vanjskom okruženju. Možete čitati i pisati podatke iz različitih formata kao što su XML, CSV i excel. U ovom ćemo članku vidjeti kako se R može koristiti za čitanje, pisanje i obavljanje različitih operacija na CSV datotekama.

Izrada CSV datoteke u R

U ovom ćemo odjeljku vidjeti kako se okvir podataka može stvoriti i izvesti u CSV datoteku u R. U prvom ćemo stvoriti okvir podataka koji se sastoji od varijabli zaposlenika i odgovarajuće plaće.

> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)

Jednom kada se kreira podatkovni okvir vrijeme je da koristimo R-ovu funkciju izvoza za stvaranje CSV datoteke u R. Za izvoz okvira podataka u CSV možemo upotrijebiti donji kôd.

> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)

U gornjem retku koda dali smo imenik staza za našu slavu podataka i pohranili podatkovni okvir u CSV formatu. U gornjem slučaju, CSV datoteka je spremljena na mojoj osobnoj radnoj površini. Ova će se datoteka koristiti u našem vodiču za obavljanje više operacija.

Čitanje CSV datoteka u programu R

Tijekom izvođenja analitike pomoću R-a u mnogim smo slučajevima potrebni za čitanje podataka iz CSV datoteke. R je vrlo pouzdan dok čitate CSV datoteke. U gornjem primjeru smo stvorili datoteku koju ćemo koristiti za čitanje pomoću naredbe read.csv. Ispod je primjer da se to učini u R.

> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df

Gornja naredba čita datoteku Employee.csv koja je dostupna na radnoj površini i prikazuje je u R studiju. Naredba zaglavlja podrazumijeva da je zaglavlje dostupno za skup podataka, a naredba sep podrazumijeva da su podaci odvojeni zarezima.

Pišite CSV datoteke u R

Pisanje u CSV datoteku jedna je od najkorisnijih funkcija dostupnih u R-u za analitičara podataka. Ovo se može koristiti za pisanje uređene CSV datoteke u novu CSV datoteku radi analize podataka. Naredba Write.csv koristi se za pisanje datoteke u CSV.

U donjem kôdu df u okviru podataka u kojem su naši podaci dostupni, dodatak se koristi za određivanje da je nova datoteka stvorena umjesto dodavanja ili prepisivanja u staroj datoteci. Dodavanje lažnih sugerira da se stvori nova CSV datoteka. Sep predstavlja polje odvojeno zarezom.

# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)

CSV operacije

CSV operacije su potrebne za uvid u podatke nakon što su učitane u sustav. R ima nekoliko ugrađenih funkcija za provjeru i uvid u podatke. Ove operacije pružaju potpune informacije o skupu podataka.

Jedna od najčešće korištenih naredbi je sažetak.

> summary(df)

Naredba sažetak daje nam statistiku u stupcima. Numerička varijabla je opisana na statistički način koji uključuje statističke rezultate kao što su srednja, min, srednja i maks. U gornjem primjeru dvije su varijable koje su zaposleni i plaće odvojene, a prikazane su nam statistike brojčane varijable koja je plaća.

Naredba View () koristi se za otvaranje skupa podataka na drugoj kartici i ručnu provjeru.

> View(df)

Str funkcija će korisnicima pružiti više detalja o stupcu skupa podataka. U primjeru u nastavku možemo vidjeti da varijabla Employee ima faktor kao tip podataka, a varijabla Plata kao int podataka ima int (integer).

> str(df)

U mnogim ćemo slučajevima morati vidjeti ukupan broj redaka koji su dostupni u slučaju velikog skupa podataka, za koji možemo upotrijebiti naredbu nrow (). Pogledajte primjer u nastavku.

> # to show the total number of rows in the dataset
> nrow(df)

Na sličan način za prikaz ukupnog broja stupaca možemo upotrijebiti naredbu ncol ()

> ncol(df)

R nam omogućava prikaz željenog broja redaka pomoću naredbe ispod. Kad je njihov n redak dostupan u skupu podataka, možemo odrediti raspon redova koji će se prikazati.

> # to display first 2 rows of the data
> df(1:2, )

Operacija podataka izvodi se na velikom skupu podataka. Za ilustraciju, preuzeo sam skup podataka s otvorenim kodom NI poštanskog broja.

> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)

U gore navedenom skupu podataka možemo vidjeti da nedostaju nazivi zaglavlja i da postoje mnoge nulte vrijednosti. Skup podataka treba biti očišćen kako bi bio spreman za analizu. U sljedećem koraku zaglavlja će prema tome biti imena.

> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"

Sada prebrojimo broj nedostajućih vrijednosti u podatkovnom okviru i zatim ih u skladu s tim uklonimo.

> # count of all missing values
> table(is.na (NiPostCode))

Iz gornje naredbe vidimo da je ukupni broj praznina ili NA u podatkovnom okviru blizu 5445148. Uklanjanje svih nultih vrijednosti rezultirat će gubitkom ogromne količine podataka, stoga je pametno ukloniti stupce u kojima je više od pola od 50% podataka nedostaje.

> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)

Zaključak

U ovom smo vodiču vidjeli kako se CSV datoteke mogu kreirati, čitati i dodavati pomoću operacija u R. Naučili smo kako stvoriti novi skup podataka u R-u, a zatim ga uvesti u CSV format. Nadalje smo vidjeli više operacija kao što je preimenovanje zaglavlja i brojanje broja redaka i stupaca.

Preporučeni članci

Ovo je vodič za R CSV datoteke. Ovdje razgovaramo o stvaranju, čitanju i pisanju CSV datoteke u R s CSV operacijama. Možete pogledati i sljedeći članak da biste saznali više -

  1. JSON vs CSV
  2. Proces rudarjenja podataka
  3. Karijere u analizi podataka
  4. Excel vs CSV

Kategorija: