Uvod v drevo odločanja v strojnem učenju

Drevo odločanja v strojnem učenju ima v sodobnem svetu široko polje. V ML obstaja veliko algoritmov, ki jih uporabljamo v vsakdanjem življenju. Eden od pomembnih algoritmov je drevo odločitve, ki se uporablja za razvrščanje in je tudi rešitev za regresijske težave. Ker gre za prediktivni model, se analiza drevesa odločitev opravi z algoritmičnim pristopom, kjer je nabor podatkov razdeljen na podskupine glede na pogoje. Že samo ime pove, da gre za drevesni model v obliki stavkov če-potem. Čim globlje je drevo in bolj so vozlišča, boljši je model.

Vrste drevesnih odločitev v strojnem učenju

Drevo odločitve je drevesno podoben graf, kjer se razvrščanje začne od koreninskega vozlišča do listnega vozlišča, dokler cilj ni dosežen. Najbolj priljubljen je za odločanje in razvrščanje, ki temelji na nadzorovanih algoritmih. Zgrajena je s rekurzivno particijo, kjer vsako vozlišče deluje kot testni primer za nekatere atribute in je vsak rob, ki izhaja iz vozlišča, možen odgovor v testnem primeru. Tako korensko kot listno vozlišče sta dve osebi algoritma.

Razložimo s pomočjo majhnega primera, kot sledi:

Tukaj je korensko vozlišče, ali ste stari manj kot 40 ali ne. Če je tako, ali potem jeste hrano? Če je odgovor pritrdilen, potem ste neprimerni ali drugače. In če ste starejši od 40, potem telovadite? Če je tako, potem ste fit, ali drugače, ste neprimerni. To je bila v osnovi binarna klasifikacija.

Obstajata dve vrsti odločitvenih dreves:

  1. Klasična drevesa: Zgornji primer je kategorično osredotočeno drevo.
  2. Regresijska drevesa : Pri tej vrsti algoritmov je odločitev ali rezultat neprekinjen. Ima en sam številčni izhod z več vhodi ali napovedniki.

V drevesu odločitev je tipičen izziv prepoznati atribut na vsakem vozlišču. Postopek se imenuje izbira atributa in mora uporabiti nekaj ukrepov za prepoznavanje atributa.

a. Informacijski dobiček (IG)

Information Gain meri, koliko informacij posamezne lastnosti dajo o razredu. Služi kot glavni ključ za oblikovanje drevesa odločitev. Atribut z najvišjo informacijsko stopnjo se najprej razdeli. Torej, odločitveno drevo vedno poveča informacijski dobiček. Ko uporabljamo vozlišče za razdelitev primerkov na manjše podskupine, se entropija spremeni.

Entropija: To je merilo negotovosti ali nečistoče v naključni spremenljivki. Entropija odloči, kako drevo odločitev podatke razdeli na podmnožice.

Enačba za informacijski dobiček in entropija sta naslednji:

Informacijski dobiček = entropija (staršev) - (tehtano povprečje * entropija (otroci))

Entropija: ∑p (X) log p (X)

P (X) je del primerov v danem razredu.

b. Gini indeks

Gini indeks je metrika, ki določa, kako pogosto bi bil naključno izbran element napačno prepoznan. Jasno piše, da je atribut z nizkim indeksom Ginija dana prednost.

Ginijev indeks: 1-∑ p (X) 2

Razdeljena stvaritev

  1. Da bi ustvarili delitev, moramo najprej izračunati oceno Ginija.
  2. Podatki se razdelijo s seznamom vrstic, ki imajo indeks atributa in vrednost deljenja tega atributa. Ko najdemo desni in levi nabor podatkov, lahko dobimo vrednost deljenja z oceno Gini iz prvega dela. Zdaj bo vrednost deljenja vrednost odločitve, v kateri bo atribut prebival.
  3. Naslednji del je ocenjevanje vseh delitev. Najboljša možna vrednost se izračuna z oceno stroškov delitve. Najboljši razcep se uporablja kot vozlišče drevesa odločitve.

Gradnja drevesa - drevo odločitve pri strojnem učenju

Za izdelavo drevesa odločanja sta dva koraka.

1. Izdelava terminalskih vozlišč

Pri ustvarjanju terminalskega vozlišča je najpomembnejše upoštevati, ali moramo prenehati rasti dreves ali nadaljevati naprej. Za to je mogoče uporabiti naslednje načine:

  • Največja globina drevesa: Ko drevo doseže največje število vozlišč, se tam ustavi.
  • Minimalni zapisi vozlišč: Opredelimo ga lahko kot najmanj vzorcev, ki jih vozlišče potrebuje. Nato lahko takoj prenehamo z dodajanjem terminalskih vozlišč in dobimo te minimalne zapise vozlišč.

2. rekurzivna cepitev

Ko je vozlišče ustvarjeno, lahko ustvarimo otroško vozlišče rekurzivno, tako da delimo niz podatkov in večkrat pokličemo isto funkcijo.

Napoved

Ko je drevo zgrajeno, se napoved opravi s pomočjo rekurzivne funkcije. Ponovno sledi isti postopek napovedovanja z levimi ali desnimi otroškimi vozlišči in tako naprej.

Prednosti in slabosti drevesa odločitve

Spodaj je navedenih nekaj prednosti in slabosti:

Prednosti

Drevo odločanja ima pri strojnem učenju nekaj prednosti:

  • Izčrpno: Upošteva vsak možni rezultat odločitve in temu primerno sledi vsako vozlišče do zaključka.
  • Specifično: Drevesa odločanja vsakemu problemu, odločitvi in ​​izidom dodelijo določeno vrednost. Zmanjša negotovost in dvoumnost ter poveča jasnost.
  • Enostavnost: Odločilno drevo je eden lažjih in zanesljivejših algoritmov, saj nima zapletenih formul ali podatkovnih struktur. Za izračun so potrebne samo preproste statistike in matematike.
  • Vsestransko: Drevesa odločitev je mogoče ročno izdelati s pomočjo matematike in jih uporabljati z drugimi računalniškimi programi.

Slabosti

Drevo odločanja ima pri strojnem učenju nekaj pomanjkljivosti, kot sledi:

  • Drevesa odločanja so manj primerna za ocenjevanje in finančne naloge, kadar potrebujemo ustrezno vrednost (e).
  • V primerjavi z drugimi računskimi algoritmi je klasifikacijski algoritem nagnjen k napakam.
  • Računalniško je drago. Na vsakem vozlišču je treba razvrstiti razdelitev kandidata, preden ugotovijo najboljše. Obstajajo druge možnosti, ki jih mnogi poslovni subjekti upoštevajo pri finančnih nalogah, saj je drevo odločitev predrago za ocenjevanje.
  • Medtem ko deluje s kontinuiranimi spremenljivkami, Odločitveno drevo ni najboljša rešitev, saj izgublja informacije med kategorizacijo spremenljivk.
  • Včasih je nestabilen, saj lahko majhne razlike v naboru podatkov privedejo do oblikovanja novega drevesa.

Zaključek - Drevo odločanja v strojnem učenju

Kot eden najpomembnejših in nadzorovanih algoritmov ima odločitveno drevo ključno vlogo pri analizi odločitev v resničnem življenju. Kot napovedni model se uporablja na številnih področjih zaradi njegovega ločenega pristopa, ki pomaga pri prepoznavanju rešitev, ki temeljijo na različnih pogojih, bodisi z razvrstitvijo bodisi z regresijsko metodo.

Priporočeni članki

To je vodnik po drevesu odločanja v strojnem učenju. Tukaj razpravljamo o uvodu, vrstah odločitvenega drevesa v strojnem učenju, nastajanju Split in gradnji drevesa. Obiščite lahko tudi druge naše predlagane članke, če želite izvedeti več -

  1. Vrste podatkov Python
  2. Nabori podatkov Tableau
  3. Cassandra Podatkovno modeliranje
  4. Tabela odločitev
  5. Top 8 stopenj življenjskega cikla strojnega učenja

Kategorija: