Razlike med urejanjem besedila v primerjavi z besedilno analitiko

Strukturirani podatki obstajajo že od zgodnjih devetdesetih let prejšnjega stoletja, toda tisto, zaradi česar so rudarjenje besedil in analitika besedil tako posebni, je to, da se podatki izkoristijo iz nestrukturiranih podatkov (Natural Language Processing). Ko bomo lahko to nestrukturirano besedilo pretvorili v polstrukturirane ali strukturirane podatke, bomo lahko uporabili vse algoritme za rudarjenje podatkov, npr. Statistični in strojni algoritmi učenja.

Tudi Donald Trump je podatke lahko izkoristil in jih pretvoril v informacije, ki so mu pomagale pri zmagi na ameriških predsedniških volitvah, v bistvu pa tega ni storil, kar so počeli njegovi podrejeni. Tu je zelo dober članek http://fivethirtyeight.com/features/the-real-story-of-2016/, ki ga lahko preberete.

Številna podjetja so začela uporabljati rudarjenje besedil za uporabo dragocenih vložkov iz besedila, ki je na voljo tam, na primer podjetje, ki temelji na izdelkih, lahko s pomočjo Sentimental uporabi podatke twitterja / Facebooka, da ve, kako dobro ali slabo je njihov izdelek tam na svetu. Analiza. V zgodnjih dneh je obdelava trajala veliko časa, dni, v resnici za obdelavo ali celo izvajanje algoritmov strojnega učenja, vendar z uvedbo orodij, kot so Hadoop, Azure, KNIME in druge velike programske opreme za obdelavo podatkov, rudarjenje besedil je na trgu pridobilo izjemno priljubljenost. Eden najboljših primerov analitike besedila z uporabo združevalnega rudarjenja je Amazonov mehanizem za priporočila, kjer svojim strankam samodejno daje priporočila, kaj so drugi kupili pri nakupu katerega koli določenega izdelka.

Eden največjih izzivov uporabe orodij za iskanje besedila na nekaj, kar ni v digitalni obliki / na računalniškem pogonu, je postopek izdelave. Stari arhivi in ​​številni pomembni dokumenti, ki so na voljo samo na papirjih, se včasih preberejo prek OCR (optično prepoznavanje znakov), ki ima veliko napak, včasih pa se podatki vnesejo ročno, kar je nagnjeno k človeškim napakam. Razlog, da to želimo, je, da bomo morda dobili drugačna spoznanja, ki niso vidna iz tradicionalnega branja.

Nekateri koraki rudarjenja besedila so navedeni spodaj

  • Iskanje informacij
  • Priprava in čiščenje podatkov
  • Segmentacija
  • Tokenizacija
  • Številke stop besed in odstranjevanje ločil
  • Iztegovanje
  • Pretvarjanje v male črke
  • POS označevanje
  • Ustvari besedilni korpus
  • Matrica izraza-dokumenta

Spodaj so koraki v besedilni analitiki, ki se uporabijo po pripravi matrike izraza dokumenta

  • Modeliranje (lahko vključuje naključne modele, prediktivne modele ali predpisujoče modele)
  • Usposabljanje in vrednotenje modelov
  • Uporaba teh modelov
  • Vizualizacija modelov

Edino, kar se mora vedno spomniti, je, da rudarjenje besedil vedno stoji pred analitiko besedila.

Primerjava med besedami in med Text Text-om in Text Analytics (Infographics)

Spodaj je primerjava 5 primerjave med predvidevanjem rudanja besedila in analitike besedila

Ključne razlike med Text Texting in Text Analytics

Ločimo ločevanje besedil in analitiko besedila na podlagi korakov, ki so vključeni v nekaj aplikacij, pri katerih se uporabljata tako rudarjenje besedil kot analitika besedila:

• Razvrstitev dokumentov
Pri tem so koraki, ki so vključeni v rudarjenje besedil, tokenizacija, omejevanje in lematizacija, odstranjevanje ustavljalk in ločil ter končno izračunavanje matrike term ali frekvenčnih dokumentov.

Tokenizacija - Proces delitve celotnih podatkov (korpusa) na manjše koščke ali manjše besede je običajno ena sama beseda znana kot tokenizacija (N-Gram model ali Torba besed Model)

Iztegovanje in Lematizacija - Na primer besede velike večje in največje pomenijo isto in oblikovali bodo podvojene podatke, da bi ostali podatki odvečni, naredimo lematizacijo, povezovanje besed s korensko besedo.
Odstranjevanje zaustavitvenih besed - Stop besede niso uporabne za analitiko, ki bo vsebovala besede, kot je,, itd.

Izraz frekvence - To je matrica, ki ima glave vrstic kot imena dokumentov in stolpce kot izraze (besede), podatki pa so pogostost besed, ki se pojavljajo v teh določenih dokumentih. Spodaj je vzorčni posnetek zaslona.

Na zgornji sliki imamo atribute v vrsticah (besede) in številko dokumenta kot stolpce in besedno frekvenco kot podatke.

Zdaj, ko gre za analitiko besedila, moramo upoštevati naslednje korake

Grupiranje - Z uporabo K-sredstev združevanje / Nevronske mreže / CART (drevesa za klasifikacijo in regresijo) ali katerega koli drugega algoritma združevanja lahko dokumente združujemo na podlagi ustvarjenih funkcij (tukaj so besede).

Vrednotenje in vizualizacija - Grozd oblikujemo v dve dimenziji in poglejmo, kako se ti grozdi med seboj razlikujejo, in če model drži testne podatke, ga lahko uporabimo v proizvodnji in bo dober klasifikator dokumentov, ki bo razvrstil vse nove dokumentov, ki so podani kot vnos in bi samo poimenovali gručo, v katero bo sodil.

• Analiza občutka

Eno najmočnejših orodij na trgu, ki pomagajo pri obdelavi podatkov twitterja / Facebooka ali kakršnih koli drugih podatkov, ki se lahko uporabijo za izpeljavo občutkov iz tega, ali je občutek dober, slab ali nevtralen za določen postopek / izdelek ali oseba je analiza sentimenta.
Vir podatkov je lahko dostopen z uporabo API-ja twitter / Facebook API, da na tvitu ali objavi podjetja dobite tvite / komentarje / všečke itd. Večji problem je, ker je te podatke težko strukturirati. Podatki bi vsebovali tudi različne oglase in podatkovni znanstvenik, ki dela v podjetju, mora poskrbeti, da bo izbira podatkov potekala pravilno, tako da bodo v fazi predhodne obdelave potekali samo izbrani tweet-ji / objave.
Druga orodja vključujejo spletno strganje, to je del rudarjenja besedila, pri katerem podatke s spletnih pajkov berete.
Postopek rudarjenja besedila ostaja enak kot tokenizacija, omejevanje in lematizacija, odstranjevanje ustavljalk in ločil ter končno računanje, izraz frekvenčne matrice ali matrike frekvenc dokumentov, vendar je edina razlika med uporabo analize sentimentov.
Običajno damo oceno na katero koli objavo / tvit. Običajno, ko kupite izdelek in pregledate, če imate tudi možnost, da v pregled dodate zvezdice in objavite komentar. Google, Amazon in druga spletna mesta uporabljajo zvezde za oceno komentarjev, ne le, da sprejmejo tudi tvite / objave in jih dajo ljudem, da jih ocenijo kot dobre / slabe / nevtralne in če združijo ta dva rezultata, ustvarijo novo rezultat do katerega koli določenega tvita / objave.
Vizualizacijo analize občutkov lahko izvedemo z uporabo besednega oblaka, črtnih grafikonov frekvenčne terminske matrice.

• Združenje rudarskih analiz

Ena od aplikacij, na kateri so nekateri fantje delali, je bil „verjetnostni model neželenih učinkov drog“, v katerem lahko preverimo, kateri neželeni učinki lahko povzročijo druge neželene učinke, če jemlje katero koli zdravilo.
Izvajanje besedila je vključevalo spodnji potek dela

Iz zgornje slike lahko razberemo, da do rudarjenja podatkov vsi koraki pripadajo rudarjenju besedila, ki identificira vir podatkov, jih izvleče in nato pripravi na analizo.

Nato uporabimo asociacijsko rudarjenje imamo spodnji model
Kot lahko vidimo, da nekatere puščice kažejo na oranžni krog in nato ena puščica kaže na katerikoli določen ADE (Neželeni dogodek zaradi drog). Če vzamemo primer na levi spodnji strani slike, lahko najdemo apatijo, astenijo in občutek nenormalnega, kar vodi v občutek krivde. No, lahko rečemo, da je to očitno, je očitno, ker kot človek lahko razlagate in povežete, tukaj pa stroj to razlaga in nam daje naslednji neželeni dogodek zaradi drog.

Primer besede oblak je kot spodaj

Primerjalna tabela med Text Mining in Text Analytics

Spodaj so seznami točk, opišite primerjave med Text Mining in Text Analytics:

Osnove za primerjavoBesedilo rudarjenjeText Analytics

Pomen

Izvajanje besedila je v bistvu čiščenje podatkov, ki so na voljo za analizo besedilaText Analytics uporablja statistične in strojne tehnike učenja, da lahko predvidi / predpiše ali sklepa kakršne koli informacije iz podatkov, pridobljenih z besedilom.

Koncept

Rudarjenje besedila je orodje, ki pomaga pri čiščenju podatkov.Text Analytics je postopek uporabe algoritmov

Okvir

Če govorimo o ogrodju, je rudarjenje besedila podobno ETL (Extract Transform Load), kar pomeni, da lahko vstavimo podatke v bazo, ti koraki pa se izvajajoV besedilni analitiki se ti podatki uporabljajo za dodajanje vrednosti podjetju, na primer ustvarjanje besednih oblakov, diagrami frekvenc dv-gramov, N-grami v nekaterih primerih

Jezik

Python in R sta najbolj znana orodja za rudarjenje besedil tamZa analitiko besedila, ko so podatki na voljo na ravni baze podatkov, lahko uporabimo katero koli analitično programsko opremo, vključno s python-om in R. Ostala programska oprema vključuje Power BI, Azure, KNIME itd.

Primeri

  • kategorizacija besedila
  • združevanje besedil
  • koncept / entiteta ekstrakcija
  • analiza sentimenta
  • povzetek dokumentov
  • izdelava zrnatih taksonomij
  • Modeliranje odnosov med subjekti
  • Analiza zveze
  • vizualizacija
  • napovedna analitika
  • iskanje informacij
  • leksikalna analiza
  • prepoznavanje vzorcev
  • označevanje / opomba

Zaključek -Text Mining vs Text Analytics

Prihodnost rudarjenja besedil in analitike besedil ne velja le za angleščino, ampak tudi nenehno napredujemo in z uporabo jezikovnih orodij se za analizo ne štejejo le drugi angleški jeziki.

Obseg in prihodnost rudarjenja besedil se bosta povečevala, saj bo za analizo drugih jezikov omejenih virov.

Text Analytics ima zelo širok razpon, kjer ga je mogoče uporabiti, nekateri primeri industrije, kjer se to lahko uporablja, so:

  • Spremljanje socialnih medijev
  • Pharma / Biotech aplikacije
  • Poslovne in marketinške aplikacije

Priporočeni članek

To je vodnik za razliko med Text Mining in Text Analytics, njihovim pomenom, primerjavo med seboj, ključnimi razlikami, primerjalno tabelo in sklepom. Če želite izvedeti več, si oglejte tudi naslednje članke -

  1. Azure Paas proti Iaas-Ugotovite razlike
  2. Najboljše 3 stvari, ki jih morate naučiti o rudarjenju podatkov v primerjavi z rudanjem besedil
  3. Pozanimajte se o najboljših 7 razlikah med Data Data Mining VS analizo podatkov
  4. Poslovna inteligenca vs strojno učenje - katera je boljša
  5. Napovedna analitika v primerjavi z iskanjem podatkov - kateri je bolj uporaben

Kategorija: