Uvod v algoritem klasterstva klasterjev?

K- pomeni, da je združevanje v algoritem nenadzorovanega učenja. Uporablja se, kadar podatki niso definirani v skupinah ali kategorijah, tj. Neoznačeni podatki. Cilj tega algoritma združevanja je iskanje in iskanje skupin v podatkih, kjer spremenljivka K predstavlja število skupin.

Razumevanje algoritma grozda K - pomeni

Ta algoritem je iterativni algoritem, ki nabor podatkov glede na njihove lastnosti razdeli na K število vnaprej določenih ne prekrivajočih se različnih skupin ali podskupin. Podatkovne točke med grozdi naredi čim bolj podobne in poskuša čim bolj ohraniti grozde. Podatkovne točke razporedi v gručo, če je vsota kvadratne razdalje med središčem grozda in podatkovnimi točkami na najmanjšem mestu, kjer je sredina grozda aritmetična sredina podatkovnih točk, ki so v grozdu. Manjša sprememba v grozdu povzroči podobne ali homogene podatkovne točke znotraj grozda.

Kako deluje algoritem Klaster gruščanja?

K- pomeni, da je algoritem grozdenja klaster potreben naslednje:

  • K = število podskupin ali skupin
  • Vzorec ali set za usposabljanje = (x 1, x 2, x 3, ……… x n )

Zdaj pa predpostavimo, da imamo nabor podatkov, ki ni označen, in ga moramo razdeliti na skupine.

Zdaj moramo najti število grozdov. To je mogoče storiti na dva načina:

  • Metoda komolca.
  • Namenska metoda.

O njih na kratko razpravljamo:

Metoda komolca

Pri tej metodi se nariše krivulja med "vsoti kvadratov" (WSS) in številom gruč. Narisana krivulja spominja na človeško roko. Imenujemo jo komolčna metoda, ker nam točka komolca v krivulji omogoča optimalno število grozdov. Na grafu ali krivulji se po končni točki vrednost WSS spreminja zelo počasi, zato je treba upoštevati točko komolca, da daje končno vrednost števila grozdov.

Namenski

Pri tej metodi se podatki delijo na podlagi različnih meritev, nato pa se presodi, kako uspešni so bili v tem primeru. Na primer, ureditev majic v oddelku za moška oblačila v nakupovalnem središču se izvede na podlagi meril velikosti. To je mogoče storiti na podlagi cene in blagovnih znamk tudi. Izbrali bi najprimernejše, da bi dobili optimalno število grozdov, tj. Vrednost K.

Zdaj se vrnemo na zgoraj navedeni podatek. Število grozdov, tj. Vrednost K, lahko izračunamo s katero koli od zgornjih metod.

Kako uporabiti zgoraj navedene metode?

Zdaj si oglejmo postopek izvršitve:

1. korak: Inicializacija

Najprej inicializirajte vse naključne točke, imenovane centroidi grozda. Med inicializiranjem morate paziti, da mora biti centroidi grozda manjši od številnih točk podatkov o vadbi. Ta algoritem je iterativni algoritem, zato se naslednja dva koraka izvajata iterativno.

2. korak: Dodelitev grozda

Po inicializaciji se prečkajo vse podatkovne točke in izračuna razdalja med vsemi centroidi in podatkovnimi točkami. Zdaj bi se grozdi oblikovali glede na minimalno razdaljo od centroidov. V tem primeru so podatki razdeljeni na dve skupini.

3. korak: Premik Centroida

Ker grozdi, oblikovani v zgornjem koraku, niso optimizirani, zato moramo oblikovati optimizirane grozde. Za to moramo centroide iterativno prestaviti na novo lokacijo. Vzemite podatkovne točke enega grozda, izračunajte njihovo povprečje in nato premaknite sredino tega grozda na novo lokacijo. Ponovite isti korak za vse druge skupine.

4. korak: Optimizacija

Zgornja dva koraka se izvajata iterativno, dokler se centroidi ne prenehajo premikati, tj. Ne spremenijo svojih položajev in postanejo statični. Ko to storite, se algoritem k- pomeni imenovan za konvergenco.

5. korak: Konvergenca

Zdaj se je ta algoritem zbral in oblikovali so se jasno vidni grozdi. Ta algoritem lahko daje različne rezultate, odvisno od tega, kako so bili grozdi inicializirani v prvem koraku.

Uporaba algoritma klasteriranja k-sredstev

  • Delitev trga
  • Grupiranje dokumentov
  • Segmentacija slike
  • Stiskanje slik
  • Vektorska kvantizacija
  • Cluster analiza
  • Funkcijsko učenje ali učenje slovarja
  • Opredelitev območij, nagnjenih k kriminalu
  • Odkrivanje zavarovalnih goljufij
  • Analiza podatkov javnega prevoza
  • Grozd IT sredstev
  • Segmentacija strank
  • Prepoznavanje podatkov o raku
  • Uporablja se v iskalnikih
  • Napoved aktivnosti zdravil

Prednosti Algoritma klasterjev K- pomeni

  • Hitro je
  • Robusten
  • Lahko razumeti
  • Primerjalno učinkovito
  • Če so nabori podatkov razločni, daje najboljše rezultate
  • Izdelajte tesnejše grozde
  • Ko ponovno izračunamo centroide, se grozdi spremenijo.
  • Prilagodljiv
  • Enostavna interpretacija
  • Boljši računski stroški
  • Povečuje natančnost
  • Bolje deluje s sferičnimi grozdi

Pomanjkljivosti algoritma za klasterstvo K- pomeni

  • Potrebuje predhodno specifikacijo za število centrov grozdov
  • Če obstajata dva zelo prekrivajoča se podatka, jih ni mogoče razločiti in ne moreta povedati, da obstajata dva grozda
  • Z različno zastopanostjo podatkov so tudi različni doseženi rezultati
  • Evklidska razdalja lahko neenakomerno uteži dejavnike
  • Daje lokalno optimizacijo funkcije napake na kvadrat
  • Včasih izbira centroidov ne more dati plodnih rezultatov
  • Uporablja se lahko le, če je določen pomen
  • Ni mogoče obdelati s tujimi in hrupnimi podatki
  • Ne delajte za nelinearni niz podatkov
  • Manjka doslednost
  • Občutljiv za lestvico
  • Če naletite na zelo velike nabore podatkov, se računalnik lahko zruši.
  • Težave napovedovanja

Priporočeni članki

To je vodnik za algoritem združevanja K- pomeni. Tu smo razpravljali o delu, aplikacijah, prednostih in slabostih algoritma združevanja K-Means. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

  1. Kaj so nevronske mreže?
  2. Kaj je podatkovno rudarjenje? | Vloga podatkovnega rudarjenja
  3. Vprašanje za intervjuje podatkovnega rudarjenja
  4. Strojno učenje proti nevronski mreži
  5. Grozd v strojnem učenju

Kategorija: