Spark DataFrame - Različne operacije DataFrame s primerom

Uvod v Spark DataFrame

Okvir podatkov o iskanju lahko rečemo, da je porazdeljeno zbiranje podatkov, ki je organizirano v imenovane stolpce in se uporablja tudi za izvajanje operacij, kot so filtriranje, izračunavanje združevanj, združevanje in se lahko uporablja tudi s Spark SQL. Podatkovne okvire je mogoče ustvariti z uporabo strukturiranih podatkovnih datotek skupaj z obstoječimi RDD-ji, zunanjimi zbirkami podatkov in tabel Hive. V osnovi se imenuje sloj abstrakcije, ki je zgrajen na vrhu RDD, sledi pa mu tudi API za naloge, ki je bil predstavljen v kasnejših različicah Spark (2.0 +). Poleg tega podatkovni nizi niso bili uvedeni v Pysparku, ampak le v Scali s Sparkom, vendar v primeru Dataframes ni bilo tako. Podatkovni okviri, popularno znani kot DF-ji, so logični stolpni formati, ki delajo z RDD-ji lažje in bolj priročno, hkrati pa uporabljajo enake funkcije kot RDD-ji. Če na konceptualni ravni govorite več, je enakovredna relacijskim tabelam, skupaj z dobrimi optimizacijskimi funkcijami in tehnikami.

Kako ustvariti DataFrame?

Okvir podatkov na splošno ustvari katera koli od omenjenih metod. Ustvari ga lahko z uporabo tabel Hive, zunanjih baz podatkov, strukturiranih podatkovnih datotek ali celo v primeru obstoječih RDD. Na vse te načine lahko ustvarite te imenovane stolpce, znane kot Dataframes, ki se uporabljajo za obdelavo v Apache Spark. Z uporabo aplikacij SQLContext ali SparkSession lahko uporabite za ustvarjanje Dataframes.

Operacije DataFrames Spark

V Spark je podatkovni okvir distribucija in zbiranje organizirane oblike podatkov v imenovanih stolpcih, ki je enakovredna relacijski bazi podatkov ali shemi ali podatkovnemu okviru v jeziku, kot sta R ali python, vendar skupaj z bogatejšo stopnjo optimizacij biti uporabljeno. Uporablja se za zagotavljanje določenega domenskega jezika, ki bi ga lahko uporabili za obdelavo strukturiranih podatkov.

Spodaj je nekaj osnovnih postopkov strukturirane obdelave podatkov z uporabo podatkovnih okvirjev.

1. Branje dokumenta tipa: JSON: Uporabljali bi ukaz sqlContext.read.json.

Primer: Predpostavimo, da je ime naše datoteke student.json, potem bo naš kos kode izgledal:
val dfs= sqlContext.read.json(“student.json”)

Izhod: V tem primeru bo izid, da bodo imena polj samodejno vzeta iz datoteke student.json.

2. Prikaz podatkov: Če želite videti podatke v okvirjih podatkov Spark, morate uporabiti ukaz:
dfs.show ()

Primer: Predpostavimo, da je ime naše datoteke student.json, potem bo naš kos kode izgledal:
val dfs= sqlContext.read.json(“student.json”) dfs.show()

Rezultati: Študentski podatki vam bodo predstavljeni v tabeli.

3. Uporaba metode printSchema: Če želite videti strukturo, tj. Shemo podatkovnega okvira, uporabite naslednji ukaz: dfs.printSchema ()

Primer: Predpostavimo, da je ime naše datoteke student.json, potem bo naš kos kode izgledal:

val dfs= sqlContext.read.json(“student.json”) dfs. printSchema ()

Rezultat: Struktura ali shema vam bo predstavljena

4. Uporabite izbirno metodo: Če želite uporabiti izbrano metodo, bo za pridobitev imen in stolpcev s seznama podatkovnih okvirov uporabljen naslednji ukaz.
dfs.select ("ime-stolpca"). show ()

Primer: Predpostavimo, da je ime naše datoteke student.json, potem bo naš kos kode izgledal:
val dfs= sqlContext.read.json(“student.json”) dfs.select(“name”).show()

Izhod: Videti je mogoče vrednosti stolpca z imeni.

5. Uporaba filtra za starost: Naslednji ukaz lahko uporabite za iskanje učencev, katerih starost je več kot 23 let.
dfs.filter (dfs ("ime stolpca")> vrednost) .show ()

Primer: Predpostavimo, da je ime naše datoteke student.json, potem bo naš kos kode izgledal:
val dfs= sqlContext.read.json(“student.json”) dfs.filter(dfs(“age”)>23).show()

Rezultat: Pri rezultatih se prikaže filtrirana starost za več kot 23 let.

6. Uporaba metode groupBy: Za štetje števila študentov iste starosti bi lahko uporabili naslednjo metodo.
dfs.groupBy ("ime stolpca"). count (). show ()

Primer: Predpostavimo, da je ime naše datoteke student.json, potem bo naš kos kode izgledal:
val dfs= sqlContext.read.json(“student.json”) dfs.groupBy(“age”).count().show()

7. Uporaba funkcije SQL na SparkSession, ki aplikaciji omogoča programsko izvajanje poizvedb tipa SQL in rezultat tako vrne v obliki podatkovnega okvira.
iskre.sql (poizvedba)

Primer: Recimo, da moramo registrirati podatkovni okvir SQL kot temp pogled:
df.createOrReplaceTempView(“student”) sqlDF=spark.sql(“select * from student”) sqlDF.show()

Izhod: Ime študenta bo ustvaril začasni pogled, na vrhu pa bo uporabljen spark.sql, ki ga pretvori v podatkovni okvir.

8. Uporaba funkcije SQL pri začasnem pogledu Spark Session for Global: To aplikaciji omogoča programsko izvajanje poizvedb tipa SQL in rezultat tako vrne v obliki podatkovnega okvira.
iskre.sql (poizvedba)

Primer: Recimo, da moramo registrirati podatkovni okvir SQL kot temp pogled:
df.createGlobalTempView(“student”) park.sql(“select * from global_temp.student”).show() spark.newSession().sql(“Select * from global_temp.student”).show()

Izhod: Ime študenta bo ustvaril začasni pogled, na vrhu pa bo uporabljen spark.sql, ki ga pretvori v podatkovni okvir.

Prednosti Spark DataFrame

Podatkovni okvir je razdeljena zbirka podatkov in zato so podatki organizirani poimenovani stolpec.
V primeru relacijskih baz podatkov so bolj ali manj podobne tabeli in imajo bogat nabor optimizacij.
Okvirji podatkov se uporabljajo za povečanje poizvedb, zapisanih v SQL, in tudi API-ja podatkovnega okvira
Uporablja se lahko za obdelavo tako strukturiranih kot tudi nestrukturiranih podatkov.
Uporaba orodja za optimizacijo katalizatorjev omogoča optimizacijo enostavno in učinkovito.
Knjižnice so prisotne v številnih jezikih, kot so Python, Scala, Java in R.
To se uporablja za zagotavljanje močne združljivosti s Hivem in se uporablja za izvajanje nespremenjenih poizvedb Pive na že prisotnem skladišču panja.
Zelo dobro lahko meri od nekaj kilogramov na osebnem sistemu do številnih petabajtov na velikih grozdih.
Uporablja se za enostavno integracijo z drugimi velikimi podatkovnimi tehnologijami in okviri.
Odvzem, ki ga zagotavljajo RDD-jem, je učinkovit in omogoča hitrejšo obdelavo.

Zaključek - Spark DataFrame

V tej objavi ste se naučili zelo kritične lastnosti Apache Spark, ki je okvir podatkov in njegova uporaba v aplikacijah, ki se danes izvajajo, skupaj z operacijami in prednostmi. Upam, da vam je bil naš članek všeč. Spremljajte več takih.

Priporočeni članki

To je vodnik za Spark DataFrame. Tukaj razpravljamo, kako ustvariti DataFrame? njegove prednosti in različne operacije DataFrames skupaj z ustrezno vzorčno kodo. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -