Pregled vrst grozdov

Preden se naučimo vrst grozdov, razmislimo, kaj je gručenje in zakaj je trenutno tako pomembno v industriji strojnega učenja.

Kaj je grozdenje? Grozditev je postopek, pri katerem algoritem razdeli podatkovne točke v določeno število skupin po načelu, da se podobne podatkovne točke zadržijo blizu drug drugega in spadajo v isto skupino.

Zakaj je to zdaj tako pomembno? Naj razumemo, da na primer s primerom obstaja spletna trgovina z oblačili in želijo svoje stranke bolje razumeti, da lahko izboljšajo svojo strategijo oglaševanja. Ni mogoče, da imajo za vsakega kupca edinstveno strategijo, namesto tega lahko to razdelijo na določeno število skupin (glede na predhodne nakupe) in imajo ločeno strategijo ločenih skupin. Zaradi tega je poslovanje učinkovitejše, zato je grozdenje v industriji zdaj pomembno.

Vrste grozdov

Metode združevanja tehnik so na splošno razvrščene v dve vrsti, to so trde metode in mehke metode. Pri metodi trdega združevanja vsaka podatkovna točka ali opazovanje pripada samo enemu grozdu. Pri metodi mehkega združevanja vsaka podatkovna točka ne bo v celoti pripadala enemu grozdu, namesto tega je lahko član več kot enega grozda, ima nabor koeficientov članstva, ki ustrezajo verjetnosti, da so v določeni skupini.

Trenutno v uporabi obstajajo različne vrste grozdnih metod, tukaj v tem članku si oglejmo nekaj pomembnih, kot so hierarhično združevanje, razvrščanje v gruče, nejasno združevanje, gručenje na osnovi gostote in povezovanje na osnovi distribucijskega modela. Zdaj pa razpravimo o vsakem od teh s primerom:

1. Razdelitev v gruče

Grozditev particij je vrsta združevalne tehnike, ki razdeli nabor podatkov v določeno število skupin. (Na primer vrednost K v KNN in o njej bomo odločali, preden bomo usposobili model). Lahko ga imenujemo tudi kot metoda na osnovi steroidov. Pri tem pristopu je grozdni center (centroid) oblikovan tako, da je razdalja podatkovnih točk v tem grozdu minimalna, če se izračuna z drugimi centroidi grozda. Najbolj priljubljen primer tega algoritma je algoritem KNN. Tako izgleda algoritem združevanja particijskih particij

2. Hierarhična gruča

Hierarhična grozdanja je vrsta gručarske tehnike, ki te podatke razdeli na številne grozde, kjer uporabnik ne določi števila grozdov, ki naj se ustvarijo pred usposabljanjem modela. Ta vrsta grozditvene tehnike je poznana tudi kot metode, ki temeljijo na povezljivosti. Pri tej metodi preprosto razdeljevanje niza podatkov ne bo izvedeno, medtem ko nam omogoča hierarhijo gruč, ki se med določenim razmikom združijo med seboj. Potem ko je hierarhično združevanje nabora podatkov, bo rezultat drevesno predstavljen podatkovne točke (dendogram), ki so razdeljene na grozde. Tako izgleda hierarhično združevanje po opravljenem treningu

Izvor povezave: Hierarhična gruča

Pri razvrščanju v gruče in hierarhičnem združevanju je ena glavna razlika, ki jo lahko opazimo, v tem, da v razdelitvi grozdov vnaprej določimo vrednost, na koliko skupin želimo deliti nabor podatkov, in te vrednosti v hierarhičnem združevanju ne bomo predhodno določili. .

3. Gostovanje na podlagi gostote

V tem združevanju se bodo grozdi tehnike oblikovali z ločevanjem različnih gostotih regij na podlagi različnih gostot v podatkovni grapi. Prostorna gruča na podlagi gostote in uporaba s hrupom (DBSCAN) je najbolj uporabljen algoritem v tej vrsti tehnike. Glavna ideja tega algoritma je, da bi moralo biti najmanjše število točk, ki vsebujejo v bližini določenega polmera za vsako točko v grozdu. Zaenkrat pri zgoraj omenjenih tehnikah grozdenja lahko, če temeljito opazujemo, opazimo eno skupno stvar pri vseh tehnikah, ki so v obliki oblikovanih grozdov, kroglične ali ovalne ali konkavne oblike. DBSCAN lahko tvori grozde različnih oblik, ta vrsta algoritma je najprimernejša, če nabor podatkov vsebuje hrup ali odtenek. Tako izgleda algoritem prostorskega združevanja na podlagi gostote po opravljenem usposabljanju.

Vir povezave: Gostota na podlagi gostote

4. Grozd na osnovi distribucijskega modela

Pri tej vrsti grozdov se grozdi tehnike oblikujejo tako, da se po verjetnosti identificirajo, da vse podatkovne točke v grozdu prihajajo iz iste porazdelitve (normalno, gaussovo). Najbolj priljubljen algoritem v tej vrsti tehnike je gručenje Expectation-Maximization (EM) z uporabo Gaussovih modelov mešanic (GMM).

Običajne tehnike združevanja, kot sta hierarhično združevanje in razvrščanje v gruče, ne temeljijo na formalnih modelih, KNN pri razvrščanju v gruče daje različne rezultate z različnimi K-vrednostmi. Ker KNN in KMN menita, da za središče grozda pomenita, da v nekaterih primerih ni najbolj primeren z Gaussovim modelom mešanice, predpostavljamo, da so podatkovne točke razporejene z Gaussovo, tako da imamo dva parametra za opis oblike srednjih grozdov in standardno odstopanje. Na ta način je za vsak grozd dodeljena ena Gaussova porazdelitev, da bi dobili optimalne vrednosti teh parametrov (srednja vrednost in standardni odklon), se uporablja algoritem optimizacije, imenovan Expectation Maximization. Tako izgleda EM-GMM po treningu.

Izvorna povezava: Grozd na osnovi distribucijskega modela

5. Mehko gruča

Pripada veji mehkih metod grozdnih metod, medtem ko vse zgoraj omenjene tehnike grozdenja spadajo v trde metode združevanja. Pri tej vrsti tehnike grozdanja so točke blizu središča, morda del druge skupine v višji stopnji kot točke na robu istega grozda. Verjetnost točke, ki pripada določenemu grozdu, je vrednost, ki leži med 0 do 1. Najbolj priljubljen algoritem v tej vrsti tehnike je FCM (mehki C-algoritem). Tukaj je srednja skupina grozda izračunana kot povprečje vseh točk, tehtano z njihovo verjetnostjo pripadnosti grozdu.

Zaključek - Vrste grozdov

To je nekaj različnih tehnik grozdenja, ki se trenutno uporabljajo in v tem članku smo zajeli en priljubljen algoritem v vsaki tehniki grozdenja. Izbrati moramo vrsto tehnologije, ki jo uporabljamo, glede na naš nabor podatkov in zahteve, ki jih moramo izpolniti.

Priporočeni članki

To je vodnik za vrste grozdov. Tukaj obravnavamo različne vrste grozdov z njihovimi primeri. Za več informacij si lahko ogledate tudi naslednje članke -

  1. Hierarhični algoritem grozda
  2. Grozd v strojnem učenju
  3. Vrste algoritmov strojnega učenja
  4. Vrste tehnik analize podatkov
  5. Kako uporabljati in odstraniti hierarhijo v Tableauu?
  6. Celoten vodnik po vrstah analize podatkov

Kategorija: