Uvod u grafikone u R

Grafikon je alat koji značajno utječe na analizu. Grafikoni rijetki važni su jer pomažu u prikazivanju rezultata na najučinkovitiji način. R, kao statistički programski paket, nudi opsežne mogućnosti za generiranje različitih grafova.

Neki grafovi u R dostupni su u osnovnoj instalaciji, ali drugi se mogu koristiti instaliranjem potrebnih paketa. Jedinstvena značajka grafova u R je ta što oni objašnjavaju zamršene statističke nalaze vizualizacijama. U osnovi, to je poput pomicanja koraka iznad tradicionalnog načina vizualizacije podataka. R, stoga, nudi analizu pogona izvan uobičajenog pristupa.

Vrste grafova u R

Različiti grafikoni dostupni su u R-u, a upotreba je isključivo u skladu s kontekstom. Međutim, istraživačka analiza zahtijeva uporabu određenih grafova u R koji se moraju koristiti za analizu podataka. Sada ćemo pogledati neke od takvih važnih grafova u R.

Za demonstraciju raznih grafikona koristit ćemo skup podataka "stabala" dostupan u osnovnoj instalaciji. Više detalja o skupu podataka može se otkriti pomoću? zapovjedništvo drveća u R.

1. Histogram

Histogram je grafički alat koji djeluje na jednoj varijabli. Brojne varijabilne vrijednosti grupirane su u kante za smeće, a broj vrijednosti nazvanih kao učestalost se izračunava. Ovaj se proračun zatim koristi za crtanje frekvencijskih traka u odgovarajućim grahovima. Visina šipki predstavljena je frekvencijom.

U R- u možemo koristiti funkciju hist () kao što je prikazano u nastavku, za generiranje histograma. Jednostavni histogram visine stabala prikazan je dolje.

Kodirati:

hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")

Izlaz:

Da bismo razumjeli trend učestalosti, možemo dodati grafikon gustoće iznad gornjeg histograma. To nudi više uvida u distribuciju podataka, nakrivljenost, kurtozu itd. Sljedeći kod to čini, a rezultat se prikazuje iza koda.

Kodirati:

hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)

Izlaz:

2. Scatterplot

Ovaj je zaplet jednostavan tip grafikona, ali vrlo presudan koji ima ogroman značaj. Tablica daje predstavu o povezanosti među varijablama i koristan je alat u istraživačkoj analizi.

Sljedeći kôd generira jednostavan Scatterplot grafikon. Tome smo dodali liniju trenda, da bismo razumjeli trend, podaci predstavljaju.

Kodirati:

attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)

Izlaz:

Grafikon kreiran sljedećim kodom pokazuje da postoji dobra povezanost između opsega i obujma stabla.

Kodirati:

plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)

Izlaz:

Matrice rasipanja

R nam omogućuje uspoređivanje više varijabli odjednom jer koristi rasipne matrice. Implementacija vizualizacije je vrlo jednostavna, a može se postići korištenjem parova () funkcije kao što je prikazano u nastavku.

Kodirati:

pairs(trees, main = "Scatterplot matrix for trees dataset")

Izlaz:

Scatterplot3d

Omogućuju vizualizaciju u tri dimenzije, što može pomoći u razumijevanju odnosa između više varijabli. Dakle, da biste raspoloživi rasipači bili dostupni u 3d formatu, prvo morate instalirati paket. Dakle, sljedeći kôd generira 3d graf kao što je prikazano ispod koda.

Kodirati:

library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")

Izlaz:

Pomoću donjeg koda možemo dodati kapljive linije i boje. Sada možemo prikladno razlikovati različite varijable.

Kodirati:

scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")

Izlaz:

3. Boxplot

Boxplot je način vizualizacije podataka putem kutija i viskija. Prvo se varijabilne vrijednosti razvrstavaju uzlaznim redoslijedom, a zatim se podaci podijele u četvrtine.

Okvir u parceli je srednjih 50% podataka, poznat kao IQR. Crna crta u okviru predstavlja medijan.

Kodirati:

boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")

Izlaz:

Varijanta boxplota s prorezima prikazana je dolje.

Kodirati:

boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")

Izlaz:

4. Linijski grafikon

Linijski grafikoni korisni su kad uspoređujete više varijabli. Pomažu nam u odnosu između više varijabli u jednoj parceli. Na sljedećoj ćemo ilustraciji pokušati razumjeti trend obilježja triju stabala. Dakle, kao što je prikazano u donjem kôdu, u početku se crta grafikona za Djevojku crta pomoću funkcije plot (). Zatim se grafikoni linija za visinu i volumen crtaju na istoj parceli pomoću funkcije linije ().

Parametar "ylim" u plot () funkciji je bio da pravilno smjesti sve tri crte. Ovdje je važno imati legendu jer pomaže razumjeti koja linija predstavlja koju varijablu. U legendi parametar „lty = 1: 1“ znači da imamo istu vrstu retka za sve varijable, a „cex“ predstavlja veličinu točaka.

Kodirati:

plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)

Izlaz:

5. Zaplet točka

Ovaj alat za vizualizaciju koristan je ako želimo usporediti više kategorija s određenom mjerom. Za ilustraciju u nastavku upotrijebljen je skup podataka mtcars. Dotchart () funkcija prikazuje pomicanje za različite modele automobila kao što slijedi.

Kodirati:

attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")

Izlaz:

Dakle, sada ćemo sortirati skup podataka na vrijednosti pomicanja, a zatim ih crtati različitim zupčanicima pomoću funkcije dotchart ().

Kodirati:

m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")

Izlaz:

Zaključak

Analitika u pravom smislu koristi samo vizualizacijama. R, kao statistički alat, nudi snažne mogućnosti vizualizacije. Zbog toga su brojne mogućnosti povezane s ljestvicama ono što ih čini posebnim. Svaka od ljestvica ima vlastitu primjenu, a tablicu je potrebno proučiti prije nego što je primijenite na problem.

Preporučeni članci

Ovo je vodič za Grafove u R. Ovdje smo raspravljali o uvođenju i tipovima grafova u R-u, poput histograma, rasipanja, višestrukog raspada i mnogo više, zajedno s primjerima i implementacijom. Možete pogledati i sljedeće članke da biste saznali više -

  1. R Vrste podataka
  2. R Paketi
  3. Uvod u Matlab
  4. Grafovi prema grafikonima

Kategorija: