Uvod v grafe v R
Graf je orodje, ki pomembno vpliva na analizo. Grafi v redkih so pomembni, saj pomagajo predstaviti rezultate na najbolj interaktiven način. R kot statistični programski paket ponuja obsežne možnosti za ustvarjanje različnih grafov.
Nekateri grafi v R so na voljo v osnovni namestitvi, druge pa lahko uporabite z namestitvijo potrebnih paketov. Edinstvena značilnost grafov v R je, da z vizualizacijami razlagajo zapletene statistične ugotovitve. Torej je v bistvu to kot korak pred tradicionalnim načinom vizualizacije podatkov. R torej ponuja zunajserijski pristop k analizi pogonov.
Vrste grafov v R
Različni grafi so na voljo v R, uporabo pa ureja izključno kontekst. Vendar pa raziskovalna analiza zahteva uporabo določenih grafov v R, ki jih je treba uporabiti za analizo podatkov. Zdaj bomo preučili nekaj takih pomembnih grafov v R.
Za predstavitev različnih grafov bomo uporabili nabor podatkov o "drevesih", ki je na voljo v osnovni namestitvi. Več podrobnosti o naboru podatkov je mogoče odkriti z uporabo? drevesa ukaz v R.
1. Histogram
Histogram je grafično orodje, ki deluje na eni spremenljivki. Številne spremenljive vrednosti so združene v smetnjake in izračunane so številne vrednosti, imenovane kot frekvenca. Ta izračun se nato uporabi za risanje frekvenčnih pasov v ustreznih pasuljah. Višina palice je predstavljena s frekvenco.
V R lahko uporabimo funkcijo hist (), kot je prikazano spodaj, za generiranje histograma. Spodaj je prikazan preprost histogram višin dreves.
Koda:
hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")
Izhod:
Da bi razumeli trend frekvence, lahko nad zgornji histogram dodamo diagram gostote. To ponuja več vpogleda v distribucijo podatkov, poševnost, kurtozo itd. To počne naslednja koda, rezultat pa je prikazan po kodi.
Koda:
hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)
Izhod:
2. Scatterplot
Ta zaplet je preprosta vrsta grafikona, vendar zelo pomembna, ki ima ogromen pomen. Tabela prikazuje predstavo o povezavi med spremenljivkami in je priročno orodje pri raziskovalni analizi.
Naslednja koda ustvari preprosto shemo Scatterplot. Temu smo dodali vrstico trenda, da bi razumeli trend, predstavljajo podatki.
Koda:
attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)
Izhod:
Grafikon, ustvarjen z naslednjo kodo, kaže, da obstaja dobra korelacija med obsegom drevesa in obsegom drevesa.
Koda:
plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)
Izhod:
Matrice za raztresenost
R nam omogoča, da primerjamo več spremenljivk hkrati, ker uporablja matrike raztresenosti. Izvajanje vizualizacije je dokaj enostavno, dosežemo ga lahko s pomočjo parov (), kot je prikazano spodaj.
Koda:
pairs(trees, main = "Scatterplot matrix for trees dataset")
Izhod:
Scatterplot3d
Omogočajo vizualizacijo v treh dimenzijah, kar lahko pomaga razumeti razmerje med več spremenljivkami. Če želite, da so razpršene plošče na voljo v 3d, je treba najprej namestiti paket scatterplot3d. Torej naslednja koda ustvari 3d graf, kot je prikazano pod kodo.
Koda:
library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")
Izhod:
S spodnjo kodo lahko dodamo spustne črte in barve. Zdaj lahko prikladno ločimo med različnimi spremenljivkami.
Koda:
scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")
Izhod:
3. Boxplot
Boxplot je način vizualizacije podatkov s škatlami in viski. Najprej se spremenljive vrednosti razvrstijo po naraščajočem vrstnem redu, nato pa se podatki razdelijo v četrtine.
Škatla v ploskvi je srednjih 50% podatkov, znanih kot IQR. Črna črta v polju predstavlja mediano.
Koda:
boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")
Izhod:
Različica škatlaste plošče z zarezami je prikazana spodaj.
Koda:
boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")
Izhod:
4. Črtna shema
Vrstni grafikoni so uporabni pri primerjavi več spremenljivk. Pomagajo nam odnos med več spremenljivkami v enem samem ploskvi. Na naslednji sliki bomo poskušali razumeti trend treh lastnosti dreves. Torej, kot je prikazano v spodnji kodi, je sprva in linijski grafikon za Girth narisan s pomočjo plot () funkcije. Nato se vrstice na višini in volumnu narišejo na isti ploskev s pomočjo vrstice ().
Parameter „ylim“ v plot () funkciji je bil za pravilno namestitev vseh treh vrstic. Tu je pomembna legenda, saj pomaga razumeti, katera vrstica predstavlja katero spremenljivko. V legendi parameter „lty = 1: 1“ pomeni, da imamo za vse spremenljivke isti tip vrstice, „cex“ pa predstavlja velikost točk.
Koda:
plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)
Izhod:
5. Začrtovanje pike
To orodje za vizualizacijo je koristno, če želimo primerjati več kategorij z določenim ukrepom. Za spodnjo ilustracijo je bil uporabljen nabor podatkov mtcars. Funkcija dotchart () nariše premik za različne modele avtomobilov, kot je prikazano spodaj.
Koda:
attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")
Izhod:
Torej bomo zdaj razvrstili nabor podatkov na vrednosti premikov in jih nato grabili po različnih zobnikih s pomočjo funkcije dotchart ().
Koda:
m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")
Izhod:
Zaključek
Analitika v pravem pomenu se uporablja le z vizualizacijami. R kot statistično orodje ponuja močne možnosti vizualizacije. Številne možnosti, povezane s grafikoni, so tisto, kar jih naredi posebne. Vsak od grafikonov ima svojo aplikacijo in pred uporabo težave je treba preučiti.
Priporočeni članki
To je vodnik za Grafe v R. Tukaj razpravljamo o uvedbi in vrstah grafov v R, kot so histogram, razpršilec, boxplot in še veliko več, skupaj s primeri in izvedbo. Če želite izvedeti več, si oglejte tudi naslednje članke -
- R podatkovne vrste
- R Paketi
- Uvod v Matlab
- Grafikoni proti grafikonom