Pregled hierarhične analize grozdov

Preden nadaljujemo in razumemo hierarhično analizo grozdov, poskusimo razumeti, kaj je grozd? In kaj je analiza grozdov? Grozd je zbirka podatkovnih predmetov; podatkovne točke znotraj grozda so med seboj bolj podobne in se razlikujejo od podatkovnih točk v drugem grozdu. Grozdna analiza je v osnovi združevanje teh podatkovnih točk v grozd. Grupiranje je vrsta algoritma nenadzorovanega strojnega učenja, kjer ni nabora podatkov z usposabljanjem. Obstajajo različne vrste analiz grozdov, ena taka vrsta je hierarhično združevanje.

Hierarhično združevanje bo pomagalo pri ustvarjanju grozdov v pravilnem vrstnem redu / hierarhiji. Primer: najpogostejši vsakdanji primer, ki ga opazimo, je, kako po ustrezni hierarhiji naročimo datoteke in mape v računalniku.

Vrste hierarhičnih grozdov

Hierarhično združevanje je nadalje razvrščeno v dve vrsti, tj. Aglomeracijsko združevanje in delitveno grozdenje (DIANA)

Aglomerativno združevanje

V tem primeru grozditve se hierarhična razgradnja opravi s pomočjo strategije od spodaj navzgor, kjer se začne z ustvarjanjem atomskih (majhnih) grozdov z dodajanjem enega podatkovnega predmeta naenkrat in jih nato združi, da na koncu nastane velik grozd., kjer ta grozd izpolnjuje vse pogoje prenehanja. Ta postopek je iterativen, dokler se vse podatkovne točke ne združijo pod en sam velik grozd.

AGNES (AGglomerative NESting) je vrsta aglomeracijskega združevanja, ki združuje podatkovne objekte v grozd na podlagi podobnosti. Rezultat tega algoritma je drevesno strukturiran imenovan Dendrogram. Tu se z meritvami razdalje odloči, katere podatkovne točke je treba kombinirati s katerim grozdom. V bistvu gradi matrico razdalje in preveri par skupin z najmanjšo razdaljo in jih združuje.

Zgornja slika prikazuje aglomerativno in delitveno združevanje

Glede na to, kako se meri razdalja med posameznimi grozdi, lahko imamo 3 različne metode

  • Posamezna povezava : Kjer je najkrajša razdalja med dvema točkama v vsakem grozdu opredeljena kot razdalja med grozdi.
  • Popolna povezava : V tem primeru bomo najdaljšo razdaljo med točkami v vsaki grozdi šteli kot razdaljo med grozdi.
  • Povprečna povezava: tukaj bomo vzeli povprečje med vsako točko v enem grozdu do vsako drugo točko drugega grozda.

Zdaj pa se pogovorimo o prednostih in slabostih AGNES-a; ta algoritem ima časovno zapletenost vsaj O (n 2 ), zato pri skaliranju ne deluje dobro, ena velika težava pa je, da vsega, kar je bilo storjeno, nikoli ne moremo razveljaviti, tj. če napačno združimo katero koli gručo v zgodnejši fazi algoritma potem izida ne bomo mogli spremeniti / spremeniti. Toda ta algoritem ima tudi dobro plat, saj obstaja veliko manjših grozdov, saj je lahko koristen pri odkritju in ustvari urejanje predmetov, kar je zelo koristno pri vizualizaciji.

Delitvena gruča (DIANA)

Diana v bistvu pomeni Divisive Analysis; to je druga vrsta hierarhičnega združevanja, kjer v osnovi deluje na principu pristopa od zgoraj navzdol (obratno od AGNES), kjer se algoritem začne z oblikovanjem velikega grozda in rekurzivno razdeli najbolj različen grozd na dva in nadaljuje, dokler ne ' vse podobne podatkovne točke pripadajo v njihovih skupinah. Ti delitveni algoritmi povzročajo visoko natančne hierarhije kot aglomerativni pristop, vendar so računsko dragi.

Zgornja slika prikazuje razdelitev v skupine po korakih

Večfazna hierarhična gruča

Za izboljšanje kakovosti grozdov, ki jih ustvarjajo zgoraj omenjene hierarhične tehnike grozdenja, integriramo svoje hierarhične tehnike grozdenja z drugimi tehnikami grozdenja; to se imenuje večfazno združevanje. Različne vrste večfaznega združevanja so naslednje:

  • BIRCH (uravnoteženo iterativno zmanjševanje in grozdanje s pomočjo hierarhije)
  • ROCK (grundiranje RObust z uporabo povezav)
  • KAMELEON

1. Uravnoteženo iterativno zmanjševanje in grozdanje s pomočjo hierarhije

Ta metoda se v glavnem uporablja za združevanje velike količine številskih podatkov z integracijo našega hierarhičnega / mikro združevanja v začetni fazi in makro združevanja / iterativne particije v poznejši fazi. Ta metoda pomaga pri premagovanju težave s skalabilnostjo, s katero smo se srečali v podjetju AGNES, in nezmožnosti razveljavitve tega, kar je bilo storjeno pred korakom. BIRCH v svojem algoritmu uporablja dva pomembna koncepta

a. Funkcija grozdov (pomaga pri seštevanju grozda)

CF je opredeljen kot (n- število podatkovnih točk v grozdu, linearna vsota n točk, kvadratna vsota n točk). Shranjevanje lastnosti grozda na ta način pomaga izogniti shranjevanju podrobnih informacij o njem in CF je po naravi dodaten za različne grozde.

CF1 + CF2 = 1+ n 2, LS 1 + LS 2, SS 1 + SS 2 >

b. Drevo funkcij gruč (pomaga pri predstavitvi grozda kot hierarhije)

CF drevo je uravnoteženo drevo z razvejanim faktorjem B (največje število otrok) in pragom T (največje število podskupin, ki jih je mogoče shraniti v listna vozlišča).

Algoritem v osnovi deluje v dveh fazah; v 1. fazi pregleda bazo podatkov in zgradi CF-drevo v spominu, v 2. fazi pa uporabi algoritem združevanja, ki pomaga pri združevanju listnih vozlišč, tako da odstrani odstranjevalce (redke grozde) in grupo združuje z največjo gostoto. Edina pomanjkljivost tega algoritma je ta, da upravlja samo s številčnimi vrstami podatkov.

2. Trdno združevanje s pomočjo povezav

Povezava je opredeljena kot število skupnih sosedov med dvema objektoma. Algoritem ROCK je vrsta algoritma združevanja, ki uporablja ta koncept povezave s kategoričnim naborom podatkov. Ker vemo, da algoritmi združevanja, merjeni na daljavo, ne zagotavljajo visokokakovostnih grozdov za kategorični nabor podatkov, vendar v primeru ROCK upošteva tudi soseske podatkovnih točk, torej če imata dve podatkovni točki isto okolico, najverjetneje pripadajo isti skupini. Algoritem bo v prvem koraku sestavil redek graf ob upoštevanju matrike podobnosti s konceptom sosedstva in praga podobnosti. V drugem koraku uporablja aglomerativno hierarhično tehniko združevanja na redkem grafu.

3. kameleon

Ta vrsta algoritma hierarhičnega združevanja uporablja koncept dinamičnega modeliranja. Se sprašujete, zakaj se imenuje dinamična? Imenujemo jo dinamično, ker se lahko samodejno prilagodi notranjim lastnostim grozda z oceno podobnosti grozda, tj. Kako dobro so povezane podatkovne točke znotraj grozda in v bližini gruč. Ena izmed pomanjkljivosti kameleona je, da so stroški obdelave previsoki (O (n 2 ) za n predmetov je najslabša časovna zapletenost).

Vir slik - Google

Zaključek

V tem članku smo izvedeli, kaj je grozd in kaj je grozdna analiza, različne vrste hierarhičnih tehnik grozdanja, njihove prednosti in slabosti. Vsaka od tehnik, o katerih smo razpravljali, ima svoj plus in minus, zato moramo pred nadaljevanjem algoritma razumeti svoje podatke s pravilno raziskovalno analizo podatkov in algoritem izbrati previdno.

Priporočeni članki

To je vodnik za Hierarhično analizo grozdov. Tukaj razpravljamo o pregledu, aglomerativnem združevanju, delitvenem grozdu (DIANA) in večfaznem hierarhičnem združevanju. Če želite izvedeti več, si oglejte tudi naslednje članke

  1. Hierarhična gruča v R
  2. Algoritem grozda
  3. grozdi
  4. Metode grozdenja
  5. Grozd v strojnem učenju
  6. Hierarhična gruča | Aglomerativno in delitveno grozdenje

Kategorija: