Drevo odločitve v R

Pregled drevesa odločitev v R

Drevo odločanja v r je oblika nadzorovanega učenja, ki se uporablja za odpravljanje težav s klasifikacijo in regresijo. So močan algoritem strojnega učenja za delo z zelo zapletenimi nabori podatkov. Temeljni koncept drevesa odločitve je razdelitev danega nabora podatkov. Če želite prebrati ta članek, je predlagano, da imate v algoritmu drevesa odločitve osnovne koncepte učenja.

Če želite delati z drevesom odločitve v R ali laični obliki, je potrebno delati z velikimi nabori podatkov in neposredna uporaba vgrajenih R paketov olajša delo. Drevo odločanja je nelinearni model predpostavk, ki uporablja drevesno strukturo za razvrščanje odnosov. Drevo odločitve v R uporablja dve vrsti spremenljivk: kategorična spremenljivka (Da ali Ne) in kontinuirane spremenljivke. Terminologije drevesa odločitve, ki sestoji iz korenskega vozlišča (tvori oznako razreda), odločitvenih vozlišč (pododdelkov), terminalnega vozlišča (ne razdeli se naprej). Edinstven koncept tega načina strojnega učenja je, da dane podatke razvrsti v razrede, ki tvorijo da ali ne pretok (če je drugače pristop) in predstavlja rezultate v drevesni strukturi. Algoritem, uporabljen v drevesu odločitve v R, je Gini indeks, pridobitev informacij, entropija. Na voljo so različni paketi za izdelavo odločitvenega drevesa v R: rpart (rekurzivni), party, naključni Forest, CART (klasifikacija in regresija). V R-ju je zelo enostavno izvajati odločitveno drevo.

Za jasno analizo je drevo razdeljeno na skupine: vadbeni set in testni niz. Naslednja izvedba uporablja nabor podatkov o avtomobilih. Ta nabor podatkov vsebuje 1727 obs in 9 spremenljivk, s katerimi je zgrajeno klasifikacijsko drevo. V tem članku omogoča drevesu paket za zabavo. Funkcija ustvari () daje pogojna drevesa s funkcijo ploskve.

Izvajanje s pomočjo R

Cilj je preučiti nabor podatkov o avtomobilu in predvideti, ali je vrednost avtomobila visoka / nizka in srednja.

i) Priprava podatkov

Namestitev paketov in nalaganje knjižnic

Ta modul bere nabor podatkov kot celoten podatkovni okvir in struktura podatkov je podana na naslednji način:

data<-car // Reading the data as a data frame str(data) // Displaying the structure and the result shows the predictor values.

Izhod:

Determining Factordata$vhigh View(car) > data<-car

ii) Razdelite podatke

Razdelitev podatkov s pomočjo naborov podatkov o vadbi. Odločilno drevo je razdeljeno na pododdelke, da se doseže dobra natančnost. Kompleksnost je določena z velikostjo drevesa in stopnjo napake. Tu delamo reproduktivnost in ustvarjamo več vrstic.

set. Seed (1234) dt<-sample (2, nrow(data), replace = TRUE, prob=c (0.8, 0.2)) validate<-data(dt==2, )

Slika : Prikaz podatkovnih vrednosti

Nato določite vrednost podatkov na 2

validate<-data(dt==2, )

Fig : Prikaz R konzole v R Studio

Ustvarjanje odločitvenega drevesa v R s stranko paketa

Kliknite paket-> namestite -> zabavo. Tu smo vzeli prve tri vnose iz vzorca 1727 opazovanj na naboru podatkov. Izdelava modela za napovedovanje visokih, nizkih, srednjih med vložki.

Izvajanje:

library(party) tree<-ctree(v~vhigh+vhigh.1+X2, data = train) tree

Izhod:

Parcele, ki uporabljajo Ctree

Napoved:

Prob ustvarja verjetnost za točkovanje,

Izvajanje:

predict(tree, validate, type="prob") predict(tree, validate)

(1) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(12) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(23) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(34) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(45) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(56) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(67) vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh vhigh

(78) vhigh vhigh vhigh visoko visoko visoko visoko visoko visoko visoko

(89) visoko visoko visoko visoko visoko visoko visoko visoko visoko visoko

(100) visoko visoko visoko visoko visoko visoko visoko visoko visoko visoko

(111) visoko visoko visoko visoko visoko visoko visoko visoko visoko visoko

(122) visoko visoko visoko visoko visoko visoko visoko visoko visoko visoko

(133) visoko visoko visoko visoko visoko visoko visoko visoko visoko visoko

(144) visoko visoko visoko visoko visoko visoko visoko visoko visoko visoko

(155) visoko visoko visoko visoko visoko visoko visoko visoko visoko visoko

(166) visoko visoko visoko visoko visoko visoko visoko visoko visoko visoko

(177) visoko visoko visoko visoko med med med med med

(188) med med med

(199) med med med med med med med med med

(210) med med med med med med med med med

(221) med med med med med med med med med

(232) med med med med med med med med med

(243) med med med med med med med med med

(254) med med med med med med med med nizko nizko

(265) nizka nizka nizka nizka nizka nizka nizka nizka nizka nizka

(276) nizka nizka nizka nizka nizka nizka nizka nizka nizka nizka

(287) nizka nizka nizka nizka nizka nizka nizka nizka nizka nizka

(298) nizka nizka nizka nizka nizka nizka nizka nizka nizka nizka

(309) nizka nizka nizka nizka nizka nizka nizka nizka nizka nizka

(320) nizka nizka nizka nizka nizka nizka nizka nizka nizka nizka

(331) nizka nizka nizka nizka nizka

Ravni: visoka nizka med vhigh

Drevo odločitve z uporabo rpart

Za napoved razreda z uporabo funkcije rpart () za metodo razreda. rpart () za merjenje vozlišč uporablja merilo Gini indeksa.

library(rpart) tr<-rpart (v~vhigh+vhigh.1+X2, train) library (rpart. plot) rpart. plot(tr)

rpart.plot(tr, extra=2)

Ta vrstica nariše drevo in prikaže verjetnost dodatnih funkcij za nastavitev 2, dobljeni rezultat pa je podan spodaj.

Napaka napačnega razvrščanja

Stopnja napake preprečuje prekomerno opremljanje.

tbl<-table(predict(tree), train $v) print(tbl) tepre<-predict(tree, new=validate)

Izhod:

tisk (tbl)

visok nizek med vhigh

visoko 332 0 0 0

nizka 0 359 0 0

med 0 0 350 0

vhigh 0 0 0 351

Zaključek

Odločilno drevo je v R ključni izziv, moč drevesa pa je, da jih je v primerjavi z drugimi modeli enostavno razumeti in brati. Uporabljajo jih priljubljeno pri težavah s področja podatkov. To orodje ustvarja hierarhijo odločitev, izvedenih v statistični analizi. Za razumevanje logičnih razlag drevesa odločitev je potrebno statistično znanje. Kot smo videli, je odločitveno drevo enostavno razumeti in rezultati so učinkoviti, če ima manj oznak razredov, drugi del poslabšanja pa je takrat, ko je več razredov nalepk, se izračuni zapletejo. Ta objava postane usposobljena za gradnjo prediktivnih in na drevesnih modelih učenja.

Priporočeni članki

To je vodnik po drevesu odločitev v R. Tukaj razpravljamo o uvodu, kako uporabljati in izvajati R. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

Kaj je binarno drevo na Javi?
R Programski jezik
Kaj je Visual Studio Code?
Uvod v linijski graf v R
Vodič po binomni porazdelitvi v R

Drevo odločitve v R - Celovit vodnik po drevesu odločitev v R

Kazalo:

Pregled drevesa odločitev v R