Ustvari drevo odločitve - Preprosti načini za vizualizacijo diagrama odločitvenega drevesa

Kazalo:

Anonim

Uvod v ustvarjanje drevesa odločitve

Ob nedavni hitri rasti količine podatkov, ki jih ustvarjajo informacijski sistemi, za ravnanje z velikimi množicami podatkov obstaja prevladujoča potreba po drevesu odločitev za zmanjšanje zapletenosti izračuna. Drevo odločanja se lahko šteje za najpomembnejši pristop za zastopanje klasifikatorjev. Z drugimi besedami, lahko rečemo, da so podatki strukturirani z uporabo strategije delitve in osvajanja. do tega, da smo samo raziskali. Drevo odločanja je strukturirano kot okvir za natančno določanje vrednosti in verjetnosti odločitev o rezultatih

m vsaki ravni vozlišča, ki pomaga odločevalcem pri izbiri pravilnih napovedi med različnimi neprimernimi podatki. V tem članku boste preučili, kako na enostaven način narediti drevo odločanja na podlagi vzorčnih podatkov.

Kaj je drevo odločitve?

Drevo odločanja je binarna hierarhična struktura, ki določa način, kako vsako vozlišče razdeli nabor podatkov na podlagi različnih pogojev. Za izgradnjo optimalnega drevesa z modelnim pristopom za razvrščanje odzivne spremenljivke, ki napoveduje vrednost ciljne spremenljivke s preprostimi pravili odločitve (stavki če-potem-drugače). Pristop je nadzorovano učenje, ki se večinoma uporablja pri klasifikacijskih težavah in velja za zelo učinkovit napovedni model. Uporabljajo se na različnih področjih uporabe, kot so teorija iger, umetna inteligenca, strojno učenje, rudarjenje podatkov in področja, kot sta varnost in medicina.

Kako ustvariti odločitveno drevo?

Drevo odločanja se ustvari na preproste načine z vrha navzdol; so sestavljena iz vozlišč, ki tvorijo usmerjeno vozlišče, ki ima korenska vozlišča brez vhodnih robov, vsa ostala vozlišča pa se imenujejo odločitvena vozlišča (notranja vozlišča in listna vozlišča, ki ustrezajo oznakam atributov in razredov) z vsaj enimi dohodnimi robovi. Glavni cilj podatkovnih nizov je zmanjšati posplošilne napake z iskanjem optimalne rešitve v drevesu odločitev.

Primer drevesa odločitve je razložen spodaj z vzorčnim naborom podatkov. Cilj je predvideti, ali dobiček upada ali narašča z atributi življenja in konkurence. Tu so spremenljivke drevesa odločitve kategorične (Da, Ne).

Nabor podatkov

Življenje Tekmovanje Vtipkajte Dobiček
Star Da Programska oprema Dol
Star Ne Programska oprema Dol
Star Ne Strojna oprema Dol
Sredina Da Programska oprema Dol
Sredina Da Strojna oprema Dol
Sredina Ne Strojna oprema Zgoraj
Sredina Ne Programska oprema Zgoraj
Novo Da Programska oprema Zgoraj
Novo Ne Strojna oprema Zgoraj
Novo Ne Programska oprema Zgoraj

Iz zgornjega nabora podatkov: življenjska doba, konkurenca, vrsta so napovedovalci in cilj je dobiček atributa. Za izvedbo odločitvenega drevesa obstajajo različni algoritmi, vendar je najboljši algoritem, ki se uporablja za izdelavo odločitvenega drevesa, ID3, ki je poudarjen na požrešnem iskanju. Odločilno drevo sledi pravilu sklepa o sklepu ali ločljivi normalni obliki (^).

Drevo odločitve

Na začetku velja, da je ves atribut treninga koren. Prednostna naloga za umestitev atributov kot korenskih poteka z naslednjim pristopom. Za ta postopek je znano, da izbira atributov določa, kateri atribut je korensko vozlišče na vsaki ravni. Drevo sledi dvema korakoma: gradnja drevesa, obrezovanje dreves. Podatki so razdeljeni v vsa odločitvena vozlišča.

Informacijska pridobitev

To je merilo spremembe entropije, ki temelji na neodvisni spremenljivki. Drevo odločitve mora najti največji dobiček informacij.

Entropija

Entropija je opredeljena kot končna množica, merilo naključnosti v podatkih ali predvidljivosti dogodkov, če je vzorec podobnih vrednosti, je entropija enaka nič in če je enaka z vzorcem, potem je ena.

Entropija za razred

Kjer je p verjetnost dobička, lahko rečemo „da“, N pa izguba, recimo „ne“.

torej entropija = 1

Ko je vrednost entropije izračunana, je treba določiti korensko vozlišče iz atributa.

Entropija starosti

Glede na nabor podatkov za atribut Life imamo staro = 3 navzdol, sredino = 2 navzdol in eno navzgor glede na oznako dobička.

Življenje Pi ni I (pi, ni)
Star 0 3 0
Sredina 2 2 1
Novo 3 0 0

Dobiček = razred entropija - entropija življenja = 1 - 0, 4 = 0, 6

Entropija (konkurenca) = 0, 87

Tekmovanje Pi ni I (pi, ni)
Da 1 3 0, 8
Ne 4 2 0, 9

Dobiček = razred entropija - entropija življenja = 1 - 0, 87 = 0, 12

Zdaj se težava pojavi v atributu Življenje, kjer ima sredina enako verjetnost tako navzgor kot navzdol. torej je entropija 1. podobno se izračuna za atribut tipa znova entropija je 1 in dobitek 0. Zdaj je bila ustvarjena popolna odločitev, da dobimo natančen rezultat za srednjo vrednost.

Prednosti drevesa odločitve

  • Preprosto jih je razumeti in ustvarjena pravila so prilagodljiva. Za pripravo podatkov ima malo napora.
  • Vizualni pristop za predstavitev odločitev in rezultatov je zelo koristen.
  • Drevo odločanja obravnava nabor podatkov o vadbi z napakami in manjkajočimi vrednostmi.
  • Lahko prenesejo diskretno vrednost in numerični atribut. Deluje kategorične in neprekinjene spremenljivke za vnos in izhod.
  • So koristno orodje za poslovno področje, ki mora sprejemati odločitve po analizi pod določenimi pogoji.

Slabosti odločitvenega drevesa

  • Učenci lahko ustvarijo kompleksno drevo odločitev, odvisno od usposobljenih podatkov. ta proces imenujemo kot prekomerno opremljanje, kar je težaven postopek v modelih dreves odločitev.
  • Vrednosti, ki so najprimernejše, so kategorične, če neprekinjeno drevo odločitve izgubi informacije, ki vodijo do napak. Eksponentna rast izračuna je med analizo višja.
  • Številne oznake razredov vodijo do napačnih zapletenih izračunov in dajejo nizko natančnost napovedi nabora podatkov.
  • Informacije, pridobljene v algoritmu DT, dajejo pristranski odziv na kategorično višje vrednosti.

Zaključek

Zato zaključimo, da odločitvena drevesa zagotavljajo praktično in enostavno metodo za učenje in so splošno znana kot učinkovita orodja za strojno učenje, saj v kratkem času uspešno delujejo z velikimi nabori podatkov. Gre za učno nalogo, ki uporablja splošni zaključek s statističnim pristopom. Zdaj je bolje razumeti, zakaj se odločitveno drevo uporablja pri napovedovalnem modeliranju, za znanstvenike podatkov pa so močno orodje.

Priporočeni članki

To je vodnik za ustvarjanje drevesa odločitve. Tukaj razpravljamo o tem, kako ustvariti drevo odločanja skupaj z različnimi prednostmi in slabostmi. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

  1. Pregled drevesa odločitev v R
  2. Kaj je algoritem drevesa odločitve?
  3. Uvod v orodja za umetno inteligenco
  4. Najboljših 10 vprašanj za intervju z umetno inteligenco