Metode grozdenja - Pomen in tehnike metod grozdenja

Kazalo:

Anonim

Uvod v metode grozdenja

Ta članek predstavlja pregled različnih metod združevanja, ki se uporabljajo v tehniki rudarjenja podatkov z različnimi načeli. Grupiranje je niz podatkovnih predmetov, ki so organizirani v drugačno logično razvrščanje. Razvrščanje podobnih podatkovnih postavk in dodeljevanje podobnih podatkovnih elementov v posamezne skupine. Grozdanje poteka v velikih zbirkah podatkov za nenadzorovano učenje. Med tem izvajamo razdelitev nabora podatkov v skupine. Struktura združevanja je predstavljena, kot sledi, s podmnožji. C = c1, c2… c n . Ker imajo skupine v združevanju podobne objekte, je treba v metodah združevanja določiti ukrepe za določitev ukrepov na daljavo in podobnosti. Metode grozdenja temeljijo na verjetnostnih modelih. Izvajanje podatkov zahteva združevanje, da se lahko povečuje z visoko bazo podatkov, z večdimenzionalnim prostorom, z zmotnimi podatki in hrupom.

Pojasnite metode grozdenja?

Ta metoda združevanja pomaga pri združevanju dragocenih podatkov v grozde in iz tega izbere ustrezne rezultate na podlagi različnih tehnik. Primer, pri iskanju informacij so rezultati poizvedbe združeni v majhne skupine in vsak grozd ima nepomembne rezultate. Po tehniki grozda so razvrščene v podobne kategorije in vsaka kategorija je razdeljena na podkategorije za pomoč pri raziskovanju izhodnih poizvedb. Obstajajo različne vrste grozdnih metod, to so

  • Hierarhične metode
  • Načini razdelitve
  • Glede na gostoto
  • Grozd na osnovi modela
  • Mrežni model

Sledi pregled tehnik, ki se uporabljajo pri pridobivanju podatkov in umetni inteligenci.

1. Hierarhična metoda

Ta metoda ustvari gručo z razdelitvijo na način od zgoraj navzdol in od spodaj navzgor. Oba načina tvorita dendrogram, ki povezuje med njima. Dendrogram je drevesna oblika, ki ohranja zaporedje združenih grozdov. Hierarhične metode proizvajajo več particij glede na ravni podobnosti. Delimo jih na aglomerativno hierarhično združevanje in delitveno hierarhično združevanje. Tu se ustvari drevo grozdov z uporabo tehnik spajanja. Za delitev se uporablja delitev, združevanje pa uporablja aglomerativno. Aglomerativno združevanje vključuje:

  1. Sprva vzemite vse podatkovne točke in jih obravnavajte kot posamezne skupine, ki se začnejo od zgoraj navzdol. Te grozde združimo, dokler ne dobimo želenih rezultatov.
  2. Naslednja dva podobna grozda sta združena in tvorita ogromno enotno gručo.
  3. Spet izračunamo bližino v ogromni grozdi in združimo podobne grozde.
  4. Zadnji korak vključuje združitev vseh donosnih grozdov na vsakem koraku, da se tvori končni en sam grozd.

2. Metoda razdelitve:

Glavni cilj particije je selitev. Predelne particije premeščajo s prehodom iz ene skupine v drugo, kar naredi začetno particijo. Podatkovne predmete razdeli na 'k' število gruč. Ta delna metoda je pri prepoznavanju vzorcev prednostna bolj kot hierarhični model. Za izpolnjevanje tehnik so postavljena naslednja merila:

  • Vsaka skupina bi morala imeti en predmet.
  • Vsak podatkovni objekt pripada enemu grozdu.

Najpogosteje uporabljene tehnike particij so K-srednji algoritem. Razdelijo se na skupine 'K', ki jih predstavljajo centroidi. Vsako središče grozda se izračuna kot sredina tega grozda in funkcija R vizualizira rezultat. Ta algoritem ima naslednje korake:

  1. Iz podatkovnega niza naključno izberemo K predmete in oblikujemo začetne centre (centroide)
  2. Nato dodelite evklidsko razdaljo med predmeti in srednjim središčem.
  3. Dodelitev srednje vrednosti za vsak posamezen grozd.
  4. Koraki za posodobitev Centroida za vsa 'k' grozda.

3. Model gostote:

V tem modelu so grozdi definirani z lociranjem regij z večjo gostoto v grozdu. Glavno načelo za njimi je osredotočenje na dva parametra: največji polmer soseske in minimalno število točk. Model z gostoto prepoznava grozde različnih oblik in hrupa. Deluje tako, da zazna vzorce z oceno prostorske lokacije in razdalje do sosedove metode, ki je tukaj uporabljena, je DBSCAN (Prostorna grundiranja na osnovi gostote), ki daje roke za velike prostorske baze podatkov. Uporaba treh podatkovnih točk za združevanje, in sicer osnovne točke, mejne točke in odtoki. Primarni cilj je prepoznati grozde in njihove distribucijske parametre. Postopek združevanja se ustavi s potrebo po parametrih gostote. Za iskanje gruč je pomembno, da pri izračunu jedrske razdalje vsebuje parameter Minimalne lastnosti na gručo. Tri različna orodja, ki jih ponuja ta model, so DBSCAN, HDBSCAN, Multi-scale.

4. Grozd na osnovi modela

Ta model združuje dva ali tri grozde skupaj iz razdelitve podatkov. Osnovna ideja tega modela je, da je treba podatke razdeliti v dve skupini na podlagi verjetnostnega modela (večvariatne normalne porazdelitve). Tu je vsaka skupina dodeljena kot pojmi ali razred. Vsaka komponenta je določena s funkcijo gostote. Za iskanje parametra v tem modelu se za oceno porazdelitve mešanice uporabi ocena največje verjetnosti. Vsak grozd 'K' je modeliran z Gaussovo porazdelitvijo z dvema parametroma µ k srednjim vektorjem in £ k kovarijancem.

5. Grid-based Model

V tem pristopu se predmeti štejejo za vesolje, ki jih razdeli prostor na končno število celic, da tvorijo mrežo. S pomočjo mreže se uporablja tehnika gruščanja za hitrejšo obdelavo, ki je običajno odvisna od celic in ne od predmetov. Udeleženi koraki so:

  • Oblikovanje mrežne strukture
  • Gostota celic se izračuna za vsako celico
  • Uporaba mehanizma za razvrščanje na njihove gostote.
  • Iskanje središč grozda in prečkanje sosednjih celic, da se postopek ponovi.

Pomen metod grozdenja

  1. Imeti metode združevanja pomaga pri ponovnem zagonu lokalnega iskalnega postopka in odpravi neučinkovitost. Grozdanje pomaga določiti notranjo strukturo podatkov.
  2. Ta skupina grozdov je bila uporabljena za analizo modelov, vektorsko območje privlačnosti.
  3. Grozd pomaga pri razumevanju naravnega razvrščanja v naboru podatkov. Njihov namen je smiselno razdeliti podatke na neko skupino logičnih skupin.
  4. Kakovost gruče je odvisna od metod in odkrivanja skritih vzorcev.
  5. Imajo široko vlogo v aplikacijah, kot so tržne ekonomske raziskave, spletni dnevniki za prepoznavanje vzorcev ukrepov podobnosti, obdelava slik, prostorske raziskave.
  6. Uporabljajo jih pri odkritju zunaj za odkrivanje goljufij na kreditnih karticah.

Zaključek

Grozd se šteje za splošno nalogo reševanja problema, ki formulira problem optimizacije. Ključnega pomena ima na področju rudarjenja in analize podatkov. Videli smo različne metode združevanja, ki delijo nabor podatkov, odvisno od zahtev. Večina raziskav temelji na tradicionalnih tehnikah, kot so K-sredstva in hierarhični modeli. Območja grozdov se uporabljajo v starih dimenzijah, kar tvori prihodnji obseg raziskovalcev.

Priporočeni članek

To je vodnik za metode grozdenja. Tu smo razpravljali o konceptu, pomenu in tehnikah metod grozdenja. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

  1. Kaj je ETL?
  2. Kaj je Data Science
  3. Kaj je zdravilo Teradata?
  4. Najboljših 6 AWS alternativ
  5. Grozd v strojnem učenju
  6. Multivariatna regresija
  7. Hierarhična gruča | Aglomerativno in delitveno grozdenje