Uvod v algoritem KNN v R
V algoritmu KNN v R KNN pomeni K algoritem najbližjega soseda in R je programski jezik. Kaže se, da je najpreprostejši algoritem strojnega učenja. KNN je nadzorovani algoritem razvrsti podatkovne točke v ciljni razred s primerjavo funkcij z najbližjim sosedom.
Primer: Predpostavimo, da želite razvrstiti zaslon na dotik in telefon s tipkovnico. Pri razlikovanju obeh telefonov obstajajo različni dejavniki. Vendar je dejavnik, ki razlikuje oba telefona, tipkovnica. Torej, ko prejmemo podatkovno točko (tj. Telefon). Primerjamo ga s podobnimi lastnostmi sosednjih podatkovnih točk, da ga uvrstimo med tipkovnico ali telefon na dotik.
Značilnosti algoritma KNN
Tu bomo preučili značilnosti algoritma KNN:
- KNN algoritem uporablja vhodne podatke za napovedovanje izhodnih podatkovnih točk.
- Algoritem lahko uporabimo za različne sklope problemov.
- Za razvrščanje podatkov se osredotoča na podobnost funkcij.
- KNN algoritem obravnava realne podatke in ne daje nobenih predpostavk o podatkovnih točkah.
- KNN si zapomni nabor podatkov o vadbi, ne pa da je intuitiven. Prav tako lahko rečemo, da ima leni pristop.
- Lahko reši težave s klasifikacijo in regresijo.
Reševanje problemov v algoritmu KNN v R
Naslednja težava:
1. Problem klasifikacije
V težavi s klasifikacijo so vrednosti diskretne, tako kot želite uživati pico z prelivi ali brez. Obstaja skupno stališče. Algoritem KNN pomaga pri reševanju takšnega problema.
2. Problem regresije
Problem regresije se pojavi v sliki, ko imamo odvisno spremenljivko in neodvisno spremenljivko. Na primer: indeks BMI. Običajno vsaka vrstica vsebuje opazovalno ali podatkovno točko in primer.
Algoritem KNN v R
Poglejmo korake v algoritmu, ki ga je treba upoštevati:
1. korak: Naložite vhodne podatke.
2. korak: Inicializirajte K s številom najbližjih sosedov.
3. korak: Izračun podatkov (tj. Razdalja med trenutnim in najbližjim sosedom)
4. korak: Dodajanje razdalje trenutno urejenemu naboru podatkov.
5. korak: Pobiranje K vnosov in njihovo označevanje.
6. korak: Vrnite srednjo vrednost za regresijski problem.
7. korak: Vrnite vrednost načina za težave s klasifikacijo.
Točke, ki si jih morate zapomniti med izvajanjem algoritma KNN
- Poskrbeti bi morali, da bo vrednost K večja od ene, saj napoveduje, da je napoved natančna.
- Bolj kot je vrednost K, natančnejša napoved je lahko posledica večine.
- Zaželeno je, da je K kot liho število. V nasprotnem primeru lahko pride do prekinitve kravate.
Psevdok KNN
V spodnji formuli oz. predstavlja spremenljivke in predstavlja podatkovne točke, kjer je (i = 1, 2, 3…)
Set(, )
Uporabite primere
Sledijo primeri uporabe v algoritmu KNN v R:
1. Primerjava izdelkov in pomoč pri nakupovalnih priporočilih
Ko kupujemo prenosni računalnik ali računalnik s spletnega mesta za e-trgovino, vidimo tudi priporočila za nakupovanje, kot je nakup protivirusne programske opreme ali zvočnikov. Vse to je zato, ker ko prejšnja stranka kupi prenosni računalnik, ga večinoma kupi skupaj z protivirusnimi ali zvočniki. Strojno učenje pomaga pri priporočilih za e-trgovino.
2. Priporočila za hrano
Strojno učenje pomaga tudi pri priporočilih, ki temeljijo na predhodno naročeni hrani in temu primerno predlagajo tudi restavracije.
Primer algoritma KNN
Sledijo primeri algoritma KNN:
1. Uvoz podatkov
Vzemimo drobne podatke o nas, ki napovedujejo velikost majice fanta s pomočjo višine in teže.
Višina (cm) | Teža (kg) | Velikost |
140 | 58 | S |
140 | 59 | S |
140 | 63 | S |
150 | 59 | M |
152 | 60 | M |
153 | 60 | M |
154 | 61 | M |
155 | 64 | M |
156 | 64 | M |
157 | 61 | M |
160 | 62 | L |
161 | 65 | L |
162 | 62 | L |
163 | 63 | L |
163 | 66 | L |
165 | 63 | L |
165 | 64 | L |
165 | 68 | L |
2. Iskanje podobnosti z izračunom razdalje
Kot neprekinjeni podatki lahko uporabimo manhattansko in evklidsko razdaljo. Izračunamo razdaljo med novim vzorcem in naborom podatkov o vadbi, nato pa poiščemo K-najbližje.
Primer: Recimo, da ima Raj višino 165 cm in tehta 63 kg. Evklidsko razdaljo izračunamo s pomočjo prvega opazovanja z novim vzorcem: SQRT ((165-140) 2 + (63-58) 2)
3. Iskanje K-najbližjih sosedov
Predpostavimo, da je K = 4, obstajajo 4 stranke, pri katerih so bile 3 srednje velikosti in 1 velike velikosti. Najboljša napoved so srednje velikosti obleke Raj.
Razlika med KNN in K-srednjo
Sledijo razlike:
- KNN je nadzorovani algoritem (odvisna spremenljivka), medtem ko je srednja vrednost K-ja nenadzorovani algoritem (ni odvisne spremenljivke).
- K-srednja uporablja tehniko združevanja, da razdeli podatkovne točke, ki tvorijo K-grozde. KNN uporablja K-najbližje sosede za razvrščanje podatkovnih točk in jih združuje.
Prednosti in slabosti KNN
Prednosti so naslednje:
- KNN algoritem je vsestranski, lahko ga uporabljamo za težave s klasifikacijo in regresijo.
- Za izdelavo algoritma KNN ni potreben predhodni model.
- Enostavno in enostavno izvedljivo.
Sledijo slabosti:
- Algoritem z naraščanjem števila vzorcev (tj. Nobenih spremenljivk)
Priporočeni članki
To je vodnik za algoritem KNN v R. Tukaj razpravljamo o značilnostih, primerih, psevdokodu, korakih, ki jih je treba upoštevati v Algoritmu KNN. Obiščite lahko tudi druge naše sorodne članke, če želite izvedeti več -
- Algoritmi znanosti o podatkih
- Kaj je genetski algoritem?
- Algoritmi poti
- Algoritmi nevronske mreže
- C ++ algoritem | Primeri algoritma C ++