K- pomeni algoritem grozdenja - Kako deluje - Analiza in izvajanje

Uvod v algoritem klasterstva klasterjev?

K- pomeni, da je združevanje v algoritem nenadzorovanega učenja. Uporablja se, kadar podatki niso definirani v skupinah ali kategorijah, tj. Neoznačeni podatki. Cilj tega algoritma združevanja je iskanje in iskanje skupin v podatkih, kjer spremenljivka K predstavlja število skupin.

Razumevanje algoritma grozda K - pomeni

Ta algoritem je iterativni algoritem, ki nabor podatkov glede na njihove lastnosti razdeli na K število vnaprej določenih ne prekrivajočih se različnih skupin ali podskupin. Podatkovne točke med grozdi naredi čim bolj podobne in poskuša čim bolj ohraniti grozde. Podatkovne točke razporedi v gručo, če je vsota kvadratne razdalje med središčem grozda in podatkovnimi točkami na najmanjšem mestu, kjer je sredina grozda aritmetična sredina podatkovnih točk, ki so v grozdu. Manjša sprememba v grozdu povzroči podobne ali homogene podatkovne točke znotraj grozda.

Kako deluje algoritem Klaster gruščanja?

K- pomeni, da je algoritem grozdenja klaster potreben naslednje:

K = število podskupin ali skupin
Vzorec ali set za usposabljanje = (x ₁, x ₂, x ₃, ……… x _n )

Zdaj pa predpostavimo, da imamo nabor podatkov, ki ni označen, in ga moramo razdeliti na skupine.

Zdaj moramo najti število grozdov. To je mogoče storiti na dva načina:

Metoda komolca.
Namenska metoda.

O njih na kratko razpravljamo:

Metoda komolca

Pri tej metodi se nariše krivulja med "vsoti kvadratov" (WSS) in številom gruč. Narisana krivulja spominja na človeško roko. Imenujemo jo komolčna metoda, ker nam točka komolca v krivulji omogoča optimalno število grozdov. Na grafu ali krivulji se po končni točki vrednost WSS spreminja zelo počasi, zato je treba upoštevati točko komolca, da daje končno vrednost števila grozdov.

Namenski

Pri tej metodi se podatki delijo na podlagi različnih meritev, nato pa se presodi, kako uspešni so bili v tem primeru. Na primer, ureditev majic v oddelku za moška oblačila v nakupovalnem središču se izvede na podlagi meril velikosti. To je mogoče storiti na podlagi cene in blagovnih znamk tudi. Izbrali bi najprimernejše, da bi dobili optimalno število grozdov, tj. Vrednost K.

Zdaj se vrnemo na zgoraj navedeni podatek. Število grozdov, tj. Vrednost K, lahko izračunamo s katero koli od zgornjih metod.

Kako uporabiti zgoraj navedene metode?

Zdaj si oglejmo postopek izvršitve:

1. korak: Inicializacija

Najprej inicializirajte vse naključne točke, imenovane centroidi grozda. Med inicializiranjem morate paziti, da mora biti centroidi grozda manjši od številnih točk podatkov o vadbi. Ta algoritem je iterativni algoritem, zato se naslednja dva koraka izvajata iterativno.

2. korak: Dodelitev grozda

Po inicializaciji se prečkajo vse podatkovne točke in izračuna razdalja med vsemi centroidi in podatkovnimi točkami. Zdaj bi se grozdi oblikovali glede na minimalno razdaljo od centroidov. V tem primeru so podatki razdeljeni na dve skupini.

3. korak: Premik Centroida

Ker grozdi, oblikovani v zgornjem koraku, niso optimizirani, zato moramo oblikovati optimizirane grozde. Za to moramo centroide iterativno prestaviti na novo lokacijo. Vzemite podatkovne točke enega grozda, izračunajte njihovo povprečje in nato premaknite sredino tega grozda na novo lokacijo. Ponovite isti korak za vse druge skupine.

4. korak: Optimizacija

Zgornja dva koraka se izvajata iterativno, dokler se centroidi ne prenehajo premikati, tj. Ne spremenijo svojih položajev in postanejo statični. Ko to storite, se algoritem k- pomeni imenovan za konvergenco.

5. korak: Konvergenca

Zdaj se je ta algoritem zbral in oblikovali so se jasno vidni grozdi. Ta algoritem lahko daje različne rezultate, odvisno od tega, kako so bili grozdi inicializirani v prvem koraku.

Uporaba algoritma klasteriranja k-sredstev

Delitev trga
Grupiranje dokumentov
Segmentacija slike
Stiskanje slik
Vektorska kvantizacija
Cluster analiza
Funkcijsko učenje ali učenje slovarja
Opredelitev območij, nagnjenih k kriminalu
Odkrivanje zavarovalnih goljufij
Analiza podatkov javnega prevoza
Grozd IT sredstev
Segmentacija strank
Prepoznavanje podatkov o raku
Uporablja se v iskalnikih
Napoved aktivnosti zdravil

Prednosti Algoritma klasterjev K- pomeni

Hitro je
Robusten
Lahko razumeti
Primerjalno učinkovito
Če so nabori podatkov razločni, daje najboljše rezultate
Izdelajte tesnejše grozde
Ko ponovno izračunamo centroide, se grozdi spremenijo.
Prilagodljiv
Enostavna interpretacija
Boljši računski stroški
Povečuje natančnost
Bolje deluje s sferičnimi grozdi

Pomanjkljivosti algoritma za klasterstvo K- pomeni

Potrebuje predhodno specifikacijo za število centrov grozdov
Če obstajata dva zelo prekrivajoča se podatka, jih ni mogoče razločiti in ne moreta povedati, da obstajata dva grozda
Z različno zastopanostjo podatkov so tudi različni doseženi rezultati
Evklidska razdalja lahko neenakomerno uteži dejavnike
Daje lokalno optimizacijo funkcije napake na kvadrat
Včasih izbira centroidov ne more dati plodnih rezultatov
Uporablja se lahko le, če je določen pomen
Ni mogoče obdelati s tujimi in hrupnimi podatki
Ne delajte za nelinearni niz podatkov
Manjka doslednost
Občutljiv za lestvico
Če naletite na zelo velike nabore podatkov, se računalnik lahko zruši.
Težave napovedovanja

Priporočeni članki

To je vodnik za algoritem združevanja K- pomeni. Tu smo razpravljali o delu, aplikacijah, prednostih in slabostih algoritma združevanja K-Means. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

Kaj so nevronske mreže?
Kaj je podatkovno rudarjenje? | Vloga podatkovnega rudarjenja
Vprašanje za intervjuje podatkovnega rudarjenja
Strojno učenje proti nevronski mreži
Grozd v strojnem učenju

K- pomeni algoritem grozdenja - Kako deluje - Analiza in izvajanje

Kazalo:

Uvod v algoritem klasterstva klasterjev?

Razumevanje algoritma grozda K - pomeni

Kako deluje algoritem Klaster gruščanja?

Metoda komolca

Namenski

Kako uporabiti zgoraj navedene metode?

1. korak: Inicializacija

2. korak: Dodelitev grozda

3. korak: Premik Centroida

4. korak: Optimizacija

5. korak: Konvergenca

Uporaba algoritma klasteriranja k-sredstev

Prednosti Algoritma klasterjev K- pomeni

Pomanjkljivosti algoritma za klasterstvo K- pomeni

Priporočeni članki

Sedanja vrednost formule rente - Kalkulator (s predlogo Excel)

Formula sedanje vrednosti - Kalkulator (primeri s predlogo Excel)

Trenutna vrednost v primerjavi s prihodnjo vrednostjo - 6 najboljših razlik (z infografiko)

Trenutna vrednost formule zaradi zapadlosti - Kalkulator (s predlogo Excel)

Trening predstavitvenih veščin - kako ga učinkovito razviti

Projekcije obratnega kapitala z uporabo predpostavk (koristno) - eduCBA

5 pomembnih navad, ki povečujejo učinkovitost vašega delovnega mesta

10 edinstvenih zakonov na delovnem mestu, ki jih vaš delodajalec morda krši

9 neverjetnih načinov za delo za mlajšega šefa

Politika na delovnem mestu - Najbolj se izogibajte in igrajte nasvete za igre

Sistemska programska orodja - Različne aplikacije in orodja

Preglednica tablice Tableau - Gradivo krogle v Tableauu

Tableau IF Izjava - Različice Tabela IF izjave s sintakso

Kontekstni filter Tableau - Kako ustvariti in odstraniti kontekstni filter Tableau?

Funkcije datumov Tableau - Različne vrste delovanja datuma v Tableau-u