Pregled drevesa odločitev v R
Drevo odločanja v r je oblika nadzorovanega učenja, ki se uporablja za odpravljanje težav s klasifikacijo in regresijo. So močan algoritem strojnega učenja za delo z zelo zapletenimi nabori podatkov. Temeljni koncept drevesa odločitve je razdelitev danega nabora podatkov. Če želite prebrati ta članek, je predlagano, da imate v algoritmu drevesa odločitve osnovne koncepte učenja.
Drevo odločitve v R
Če želite delati z drevesom odločitve v R ali laični obliki, je potrebno delati z velikimi nabori podatkov in neposredna uporaba vgrajenih R paketov olajša delo. Drevo odločanja je nelinearni model predpostavk, ki uporablja drevesno strukturo za razvrščanje odnosov. Drevo odločitve v R uporablja dve vrsti spremenljivk: kategorična spremenljivka (Da ali Ne) in kontinuirane spremenljivke. Terminologije drevesa odločitve, ki sestoji iz korenskega vozlišča (tvori oznako razreda), odločitvenih vozlišč (pododdelkov), terminalnega vozlišča (ne razdeli se naprej). Edinstven koncept tega načina strojnega učenja je, da dane podatke razvrsti v razrede, ki tvorijo da ali ne pretok (če je drugače pristop) in predstavlja rezultate v drevesni strukturi. Algoritem, uporabljen v drevesu odločitve v R, je Gini indeks, pridobitev informacij, entropija. Na voljo so različni paketi za izdelavo odločitvenega drevesa v R: rpart (rekurzivni), party, naključni Forest, CART (klasifikacija in regresija). V R-ju je zelo enostavno izvajati odločitveno drevo.
Za jasno analizo je drevo razdeljeno na skupine: vadbeni set in testni niz. Naslednja izvedba uporablja nabor podatkov o avtomobilih. Ta nabor podatkov vsebuje 1727 obs in 9 spremenljivk, s katerimi je zgrajeno klasifikacijsko drevo. V tem članku omogoča drevesu paket za zabavo. Funkcija ustvari () daje pogojna drevesa s funkcijo ploskve.
Izvajanje s pomočjo R
Cilj je preučiti nabor podatkov o avtomobilu in predvideti, ali je vrednost avtomobila visoka / nizka in srednja.
i) Priprava podatkov
Namestitev paketov in nalaganje knjižnic
Ta modul bere nabor podatkov kot celoten podatkovni okvir in struktura podatkov je podana na naslednji način:
data<-car // Reading the data as a data frame
str(data) // Displaying the structure and the result shows the predictor values.
Izhod:
Determining Factordata$vhigh View(car)
> data<-car
ii) Razdelite podatke
Razdelitev podatkov s pomočjo naborov podatkov o vadbi. Odločilno drevo je razdeljeno na pododdelke, da se doseže dobra natančnost. Kompleksnost je določena z velikostjo drevesa in stopnjo napake. Tu delamo reproduktivnost in ustvarjamo več vrstic.
set. Seed (1234)
dt<-sample (2, nrow(data), replace = TRUE, prob=c (0.8, 0.2))
validate<-data(dt==2, )
Slika : Prikaz podatkovnih vrednosti
Nato določite vrednost podatkov na 2
validate<-data(dt==2, )
Fig : Prikaz R konzole v R Studio
Ustvarjanje odločitvenega drevesa v R s stranko paketa
- Kliknite paket-> namestite -> zabavo. Tu smo vzeli prve tri vnose iz vzorca 1727 opazovanj na naboru podatkov. Izdelava modela za napovedovanje visokih, nizkih, srednjih med vložki.
Izvajanje:
library(party)
tree<-ctree(v~vhigh+vhigh.1+X2, data = train)
tree
Izhod:
Parcele, ki uporabljajo Ctree
Napoved:
Prob ustvarja verjetnost za točkovanje,
Izvajanje:
predict(tree, validate, type="prob")
predict(tree, validate)
Ravni: visoka nizka med vhigh
Drevo odločitve z uporabo rpart
Za napoved razreda z uporabo funkcije rpart () za metodo razreda. rpart () za merjenje vozlišč uporablja merilo Gini indeksa.
library(rpart)
tr<-rpart (v~vhigh+vhigh.1+X2, train)
library (rpart. plot)
rpart. plot(tr)
"
rpart.plot(tr, extra=2)
Ta vrstica nariše drevo in prikaže verjetnost dodatnih funkcij za nastavitev 2, dobljeni rezultat pa je podan spodaj.
Napaka napačnega razvrščanja
Stopnja napake preprečuje prekomerno opremljanje.
tbl<-table(predict(tree), train $v)
print(tbl)
tepre<-predict(tree, new=validate)
Izhod:
tisk (tbl)
visok nizek med vhigh
visoko 332 0 0 0
nizka 0 359 0 0
med 0 0 350 0
vhigh 0 0 0 351
Zaključek
Odločilno drevo je v R ključni izziv, moč drevesa pa je, da jih je v primerjavi z drugimi modeli enostavno razumeti in brati. Uporabljajo jih priljubljeno pri težavah s področja podatkov. To orodje ustvarja hierarhijo odločitev, izvedenih v statistični analizi. Za razumevanje logičnih razlag drevesa odločitev je potrebno statistično znanje. Kot smo videli, je odločitveno drevo enostavno razumeti in rezultati so učinkoviti, če ima manj oznak razredov, drugi del poslabšanja pa je takrat, ko je več razredov nalepk, se izračuni zapletejo. Ta objava postane usposobljena za gradnjo prediktivnih in na drevesnih modelih učenja.
Priporočeni članki
To je vodnik po drevesu odločitev v R. Tukaj razpravljamo o uvodu, kako uporabljati in izvajati R. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -
- Kaj je binarno drevo na Javi?
- R Programski jezik
- Kaj je Visual Studio Code?
- Uvod v linijski graf v R
- Vodič po binomni porazdelitvi v R