Uvod u grafikone u R
Grafikon je alat koji značajno utječe na analizu. Grafikoni rijetki važni su jer pomažu u prikazivanju rezultata na najučinkovitiji način. R, kao statistički programski paket, nudi opsežne mogućnosti za generiranje različitih grafova.
Neki grafovi u R dostupni su u osnovnoj instalaciji, ali drugi se mogu koristiti instaliranjem potrebnih paketa. Jedinstvena značajka grafova u R je ta što oni objašnjavaju zamršene statističke nalaze vizualizacijama. U osnovi, to je poput pomicanja koraka iznad tradicionalnog načina vizualizacije podataka. R, stoga, nudi analizu pogona izvan uobičajenog pristupa.
Vrste grafova u R
Različiti grafikoni dostupni su u R-u, a upotreba je isključivo u skladu s kontekstom. Međutim, istraživačka analiza zahtijeva uporabu određenih grafova u R koji se moraju koristiti za analizu podataka. Sada ćemo pogledati neke od takvih važnih grafova u R.
Za demonstraciju raznih grafikona koristit ćemo skup podataka "stabala" dostupan u osnovnoj instalaciji. Više detalja o skupu podataka može se otkriti pomoću? zapovjedništvo drveća u R.
1. Histogram
Histogram je grafički alat koji djeluje na jednoj varijabli. Brojne varijabilne vrijednosti grupirane su u kante za smeće, a broj vrijednosti nazvanih kao učestalost se izračunava. Ovaj se proračun zatim koristi za crtanje frekvencijskih traka u odgovarajućim grahovima. Visina šipki predstavljena je frekvencijom.
U R- u možemo koristiti funkciju hist () kao što je prikazano u nastavku, za generiranje histograma. Jednostavni histogram visine stabala prikazan je dolje.
Kodirati:
hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")
Izlaz:
Da bismo razumjeli trend učestalosti, možemo dodati grafikon gustoće iznad gornjeg histograma. To nudi više uvida u distribuciju podataka, nakrivljenost, kurtozu itd. Sljedeći kod to čini, a rezultat se prikazuje iza koda.
Kodirati:
hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)
Izlaz:
2. Scatterplot
Ovaj je zaplet jednostavan tip grafikona, ali vrlo presudan koji ima ogroman značaj. Tablica daje predstavu o povezanosti među varijablama i koristan je alat u istraživačkoj analizi.
Sljedeći kôd generira jednostavan Scatterplot grafikon. Tome smo dodali liniju trenda, da bismo razumjeli trend, podaci predstavljaju.
Kodirati:
attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)
Izlaz:
Grafikon kreiran sljedećim kodom pokazuje da postoji dobra povezanost između opsega i obujma stabla.
Kodirati:
plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)
Izlaz:
Matrice rasipanja
R nam omogućuje uspoređivanje više varijabli odjednom jer koristi rasipne matrice. Implementacija vizualizacije je vrlo jednostavna, a može se postići korištenjem parova () funkcije kao što je prikazano u nastavku.
Kodirati:
pairs(trees, main = "Scatterplot matrix for trees dataset")
Izlaz:
Scatterplot3d
Omogućuju vizualizaciju u tri dimenzije, što može pomoći u razumijevanju odnosa između više varijabli. Dakle, da biste raspoloživi rasipači bili dostupni u 3d formatu, prvo morate instalirati paket. Dakle, sljedeći kôd generira 3d graf kao što je prikazano ispod koda.
Kodirati:
library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")
Izlaz:
Pomoću donjeg koda možemo dodati kapljive linije i boje. Sada možemo prikladno razlikovati različite varijable.
Kodirati:
scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")
Izlaz:
3. Boxplot
Boxplot je način vizualizacije podataka putem kutija i viskija. Prvo se varijabilne vrijednosti razvrstavaju uzlaznim redoslijedom, a zatim se podaci podijele u četvrtine.
Okvir u parceli je srednjih 50% podataka, poznat kao IQR. Crna crta u okviru predstavlja medijan.
Kodirati:
boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")
Izlaz:
Varijanta boxplota s prorezima prikazana je dolje.
Kodirati:
boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")
Izlaz:
4. Linijski grafikon
Linijski grafikoni korisni su kad uspoređujete više varijabli. Pomažu nam u odnosu između više varijabli u jednoj parceli. Na sljedećoj ćemo ilustraciji pokušati razumjeti trend obilježja triju stabala. Dakle, kao što je prikazano u donjem kôdu, u početku se crta grafikona za Djevojku crta pomoću funkcije plot (). Zatim se grafikoni linija za visinu i volumen crtaju na istoj parceli pomoću funkcije linije ().
Parametar "ylim" u plot () funkciji je bio da pravilno smjesti sve tri crte. Ovdje je važno imati legendu jer pomaže razumjeti koja linija predstavlja koju varijablu. U legendi parametar „lty = 1: 1“ znači da imamo istu vrstu retka za sve varijable, a „cex“ predstavlja veličinu točaka.
Kodirati:
plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)
Izlaz:
5. Zaplet točka
Ovaj alat za vizualizaciju koristan je ako želimo usporediti više kategorija s određenom mjerom. Za ilustraciju u nastavku upotrijebljen je skup podataka mtcars. Dotchart () funkcija prikazuje pomicanje za različite modele automobila kao što slijedi.
Kodirati:
attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")
Izlaz:
Dakle, sada ćemo sortirati skup podataka na vrijednosti pomicanja, a zatim ih crtati različitim zupčanicima pomoću funkcije dotchart ().
Kodirati:
m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")
Izlaz:
Zaključak
Analitika u pravom smislu koristi samo vizualizacijama. R, kao statistički alat, nudi snažne mogućnosti vizualizacije. Zbog toga su brojne mogućnosti povezane s ljestvicama ono što ih čini posebnim. Svaka od ljestvica ima vlastitu primjenu, a tablicu je potrebno proučiti prije nego što je primijenite na problem.
Preporučeni članci
Ovo je vodič za Grafove u R. Ovdje smo raspravljali o uvođenju i tipovima grafova u R-u, poput histograma, rasipanja, višestrukog raspada i mnogo više, zajedno s primjerima i implementacijom. Možete pogledati i sljedeće članke da biste saznali više -
- R Vrste podataka
- R Paketi
- Uvod u Matlab
- Grafovi prema grafikonima