Uvod v datoteke CS CS

Datoteke CSV se pogosto uporabljajo za shranjevanje informacij v tabelarni obliki, pri čemer je vsaka vrstica zapis podatkov. Za branje, zapisovanje ali manipuliranje s podatki v R-u moramo imeti na voljo nekaj podatkov. Podatke je mogoče najti na internetu ali zbrati iz različnih virov, kot so ankete. S pomočjo R lahko berete, zapišete in uredite podatke, ki so shranjeni v zunanjem okolju. R lahko bere in piše podatke iz različnih formatov, kot so XML, CSV in excel. V tem članku bomo videli, kako se lahko R uporablja za branje, pisanje in izvajanje različnih operacij v datotekah CSV.

Ustvarjanje datoteke CSV v R

V tem razdelku bomo videli, kako je mogoče izdelati in izvoziti podatkovni okvir v datoteko CSV v R. V prvem bomo ustvarili podatkovni okvir, ki je sestavljen iz spremenljivk zaposlenega in ustrezne plače.

> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)

Ko je podatkovni okvir ustvarjen, je čas, da uporabimo izvozno funkcijo R za izdelavo datoteke CSV v R. Za izvoz podatkovnega okvira v CSV lahko uporabimo spodnjo kodo.

> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)

V zgornji vrstici kode smo zagotovili imenik poti za našo slavo podatkov in shranili podatkovni okvir v CSV formatu. V zgornjem primeru je bila datoteka CSV shranjena na mojem osebnem namizju. Ta posebna datoteka bo uporabljena v našem vodniku za izvajanje več operacij.

Branje datotek CSV v R

Med izvajanjem analitike z uporabo R moramo v mnogih primerih prebrati podatke iz datoteke CSV. R je med branjem datotek CSV zelo zanesljiv. V zgornjem primeru smo ustvarili datoteko, ki jo bomo uporabili za branje z uporabo ukaza read.csv. Spodaj je primer za to v R.

> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df

Zgornji ukaz bere datoteko Employee.csv, ki je na voljo na namizju, in prikaže to v R studiu. Ukaz glave pomeni, da je glava na voljo za nabor podatkov, ukaz sep pa pomeni, da so podatki ločeni z vejicami.

Pišite datoteke CSV v R

Pisanje v datoteko CSV je ena izmed najbolj uporabnih funkcij, ki so na voljo v R za podatkovnega analitika. To lahko uporabite za pisanje urejene datoteke CSV v novo datoteko CSV za analizo podatkov. Ukaz Write.csv se uporablja za pisanje datoteke v datoteko CSV.

V spodnji kodi df v podatkovnem okviru, v katerem so naši podatki na voljo, se doda dodajanje, da se določi, da je nova datoteka ustvarjena namesto dodajanja ali prepisa v stari datoteki. Dodajte napačno kaže, da se ustvari nova datoteka CSV. Sep predstavlja polje, ločeno z vejico.

# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)

CSV operacije

CSV operacije so potrebne za pregled podatkov, ko so naložene v sistem. R ima več vgrajenih funkcij za preverjanje in vpogled v podatke. Te operacije zagotavljajo popolne informacije o naboru podatkov.

Eden najpogosteje uporabljenih ukazov je povzetek.

> summary(df)

Ukaz povzetka nam zagotavlja statistiko, ki temelji na stolpcih. Številska spremenljivka je opisana na statistični način, ki vključuje statistične rezultate, kot so povprečje, min, mediana in max. V zgornjem primeru sta dve spremenljivki, ki sta zaposleni in plača, ločeni, statistični podatki za številčno spremenljivko, ki je plača.

Ukaz View () se uporablja za odpiranje nabora podatkov na drugem zavihku in ročno preverjanje.

> View(df)

Funkcija Str bo uporabnikom zagotovila več podrobnosti glede stolpca nabora podatkov. V spodnjem primeru lahko vidimo, da ima spremenljivka Employee faktor kot podatkovni tip, spremenljivka Plača pa kot vrsto podatkov int (celo število).

> str(df)

V mnogih primerih bomo morali videti veliko število vrstic, ki so na voljo v primeru velikega nabora podatkov, za kar bomo lahko uporabili ukaz nrow (). Glejte spodnji primer.

> # to show the total number of rows in the dataset
> nrow(df)

Na podoben način za prikaz skupnega števila stolpcev lahko uporabimo ukaz ncol ()

> ncol(df)

R nam omogoča prikaz želenega števila vrstic s pomočjo spodnjega ukaza. Ko je v nizu podatkov na voljo njihovo n število vrstic, lahko določimo obseg vrstic, ki bodo prikazane.

> # to display first 2 rows of the data
> df(1:2, )

Operacija podatkov se izvaja na velikem naboru podatkov. Za ponazoritev sem iz spleta naložil nabor podatkov odprte kode NI poštne številke.

> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)

V zgornjem naboru podatkov vidimo, da imena glavic manjkajo in da je prisotnih veliko ničelnih vrednosti. Nabor podatkov je treba očistiti, da je pripravljen za analizo. V naslednjem koraku bodo glave ustrezno ime.

> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"

Zdaj preštejmo število manjkajočih vrednosti v podatkovnem okviru in jih nato ustrezno odstranimo.

> # count of all missing values
> table(is.na (NiPostCode))

Iz zgornjega ukaza lahko vidimo, da je skupno število praznin ali NA v podatkovnem okviru blizu 5445148. Odstranitev vseh ničelnih vrednosti bo povzročila izgubo velike količine podatkov, zato je pametno odstraniti stolpce, kjer je več kot polovica od 50% podatkov manjka.

> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)

Zaključek

V tej vadnici smo videli, kako lahko datoteke CSV ustvarjamo, beremo in jih prilagamo z operacijami v R. Naučili smo se, kako ustvariti nov nabor podatkov v R in ga nato uvoziti v obliko CSV. Nadalje smo videli več operacij, kot sta preimenovanje glave in štetje števila vrstic in stolpcev.

Priporočeni članki

To je vodnik za datoteke R CSV. Tukaj razpravljamo o ustvarjanju, branju in pisanju datoteke CSV v R z operacijami CSV. Če želite izvedeti več, si oglejte tudi naslednji članek -

  1. JSON proti CSV
  2. Postopek rudarjenja podatkov
  3. Poklic v podatkovni analitiki
  4. Excel proti CSV

Kategorija: