Razlike med urejanjem besedila v primerjavi z besedilno analitiko
Strukturirani podatki obstajajo že od zgodnjih devetdesetih let prejšnjega stoletja, toda tisto, zaradi česar so rudarjenje besedil in analitika besedil tako posebni, je to, da se podatki izkoristijo iz nestrukturiranih podatkov (Natural Language Processing). Ko bomo lahko to nestrukturirano besedilo pretvorili v polstrukturirane ali strukturirane podatke, bomo lahko uporabili vse algoritme za rudarjenje podatkov, npr. Statistični in strojni algoritmi učenja.
Tudi Donald Trump je podatke lahko izkoristil in jih pretvoril v informacije, ki so mu pomagale pri zmagi na ameriških predsedniških volitvah, v bistvu pa tega ni storil, kar so počeli njegovi podrejeni. Tu je zelo dober članek http://fivethirtyeight.com/features/the-real-story-of-2016/, ki ga lahko preberete.
Številna podjetja so začela uporabljati rudarjenje besedil za uporabo dragocenih vložkov iz besedila, ki je na voljo tam, na primer podjetje, ki temelji na izdelkih, lahko s pomočjo Sentimental uporabi podatke twitterja / Facebooka, da ve, kako dobro ali slabo je njihov izdelek tam na svetu. Analiza. V zgodnjih dneh je obdelava trajala veliko časa, dni, v resnici za obdelavo ali celo izvajanje algoritmov strojnega učenja, vendar z uvedbo orodij, kot so Hadoop, Azure, KNIME in druge velike programske opreme za obdelavo podatkov, rudarjenje besedil je na trgu pridobilo izjemno priljubljenost. Eden najboljših primerov analitike besedila z uporabo združevalnega rudarjenja je Amazonov mehanizem za priporočila, kjer svojim strankam samodejno daje priporočila, kaj so drugi kupili pri nakupu katerega koli določenega izdelka.
Eden največjih izzivov uporabe orodij za iskanje besedila na nekaj, kar ni v digitalni obliki / na računalniškem pogonu, je postopek izdelave. Stari arhivi in številni pomembni dokumenti, ki so na voljo samo na papirjih, se včasih preberejo prek OCR (optično prepoznavanje znakov), ki ima veliko napak, včasih pa se podatki vnesejo ročno, kar je nagnjeno k človeškim napakam. Razlog, da to želimo, je, da bomo morda dobili drugačna spoznanja, ki niso vidna iz tradicionalnega branja.
Nekateri koraki rudarjenja besedila so navedeni spodaj
- Iskanje informacij
- Priprava in čiščenje podatkov
- Segmentacija
- Tokenizacija
- Številke stop besed in odstranjevanje ločil
- Iztegovanje
- Pretvarjanje v male črke
- POS označevanje
- Ustvari besedilni korpus
- Matrica izraza-dokumenta
Spodaj so koraki v besedilni analitiki, ki se uporabijo po pripravi matrike izraza dokumenta
- Modeliranje (lahko vključuje naključne modele, prediktivne modele ali predpisujoče modele)
- Usposabljanje in vrednotenje modelov
- Uporaba teh modelov
- Vizualizacija modelov
Edino, kar se mora vedno spomniti, je, da rudarjenje besedil vedno stoji pred analitiko besedila.
Primerjava med besedami in med Text Text-om in Text Analytics (Infographics)
Spodaj je primerjava 5 primerjave med predvidevanjem rudanja besedila in analitike besedila
Ključne razlike med Text Texting in Text Analytics
Ločimo ločevanje besedil in analitiko besedila na podlagi korakov, ki so vključeni v nekaj aplikacij, pri katerih se uporabljata tako rudarjenje besedil kot analitika besedila:
• Razvrstitev dokumentov
Pri tem so koraki, ki so vključeni v rudarjenje besedil, tokenizacija, omejevanje in lematizacija, odstranjevanje ustavljalk in ločil ter končno izračunavanje matrike term ali frekvenčnih dokumentov.
Tokenizacija - Proces delitve celotnih podatkov (korpusa) na manjše koščke ali manjše besede je običajno ena sama beseda znana kot tokenizacija (N-Gram model ali Torba besed Model)
Iztegovanje in Lematizacija - Na primer besede velike večje in največje pomenijo isto in oblikovali bodo podvojene podatke, da bi ostali podatki odvečni, naredimo lematizacijo, povezovanje besed s korensko besedo.
Odstranjevanje zaustavitvenih besed - Stop besede niso uporabne za analitiko, ki bo vsebovala besede, kot je,, itd.
Izraz frekvence - To je matrica, ki ima glave vrstic kot imena dokumentov in stolpce kot izraze (besede), podatki pa so pogostost besed, ki se pojavljajo v teh določenih dokumentih. Spodaj je vzorčni posnetek zaslona.
Na zgornji sliki imamo atribute v vrsticah (besede) in številko dokumenta kot stolpce in besedno frekvenco kot podatke.
Zdaj, ko gre za analitiko besedila, moramo upoštevati naslednje korake
Grupiranje - Z uporabo K-sredstev združevanje / Nevronske mreže / CART (drevesa za klasifikacijo in regresijo) ali katerega koli drugega algoritma združevanja lahko dokumente združujemo na podlagi ustvarjenih funkcij (tukaj so besede).
Vrednotenje in vizualizacija - Grozd oblikujemo v dve dimenziji in poglejmo, kako se ti grozdi med seboj razlikujejo, in če model drži testne podatke, ga lahko uporabimo v proizvodnji in bo dober klasifikator dokumentov, ki bo razvrstil vse nove dokumentov, ki so podani kot vnos in bi samo poimenovali gručo, v katero bo sodil.
• Analiza občutka
Eno najmočnejših orodij na trgu, ki pomagajo pri obdelavi podatkov twitterja / Facebooka ali kakršnih koli drugih podatkov, ki se lahko uporabijo za izpeljavo občutkov iz tega, ali je občutek dober, slab ali nevtralen za določen postopek / izdelek ali oseba je analiza sentimenta.
Vir podatkov je lahko dostopen z uporabo API-ja twitter / Facebook API, da na tvitu ali objavi podjetja dobite tvite / komentarje / všečke itd. Večji problem je, ker je te podatke težko strukturirati. Podatki bi vsebovali tudi različne oglase in podatkovni znanstvenik, ki dela v podjetju, mora poskrbeti, da bo izbira podatkov potekala pravilno, tako da bodo v fazi predhodne obdelave potekali samo izbrani tweet-ji / objave.
Druga orodja vključujejo spletno strganje, to je del rudarjenja besedila, pri katerem podatke s spletnih pajkov berete.
Postopek rudarjenja besedila ostaja enak kot tokenizacija, omejevanje in lematizacija, odstranjevanje ustavljalk in ločil ter končno računanje, izraz frekvenčne matrice ali matrike frekvenc dokumentov, vendar je edina razlika med uporabo analize sentimentov.
Običajno damo oceno na katero koli objavo / tvit. Običajno, ko kupite izdelek in pregledate, če imate tudi možnost, da v pregled dodate zvezdice in objavite komentar. Google, Amazon in druga spletna mesta uporabljajo zvezde za oceno komentarjev, ne le, da sprejmejo tudi tvite / objave in jih dajo ljudem, da jih ocenijo kot dobre / slabe / nevtralne in če združijo ta dva rezultata, ustvarijo novo rezultat do katerega koli določenega tvita / objave.
Vizualizacijo analize občutkov lahko izvedemo z uporabo besednega oblaka, črtnih grafikonov frekvenčne terminske matrice.
• Združenje rudarskih analiz
Ena od aplikacij, na kateri so nekateri fantje delali, je bil „verjetnostni model neželenih učinkov drog“, v katerem lahko preverimo, kateri neželeni učinki lahko povzročijo druge neželene učinke, če jemlje katero koli zdravilo.
Izvajanje besedila je vključevalo spodnji potek dela
Iz zgornje slike lahko razberemo, da do rudarjenja podatkov vsi koraki pripadajo rudarjenju besedila, ki identificira vir podatkov, jih izvleče in nato pripravi na analizo.
Nato uporabimo asociacijsko rudarjenje imamo spodnji model
Kot lahko vidimo, da nekatere puščice kažejo na oranžni krog in nato ena puščica kaže na katerikoli določen ADE (Neželeni dogodek zaradi drog). Če vzamemo primer na levi spodnji strani slike, lahko najdemo apatijo, astenijo in občutek nenormalnega, kar vodi v občutek krivde. No, lahko rečemo, da je to očitno, je očitno, ker kot človek lahko razlagate in povežete, tukaj pa stroj to razlaga in nam daje naslednji neželeni dogodek zaradi drog.
Primer besede oblak je kot spodaj
Primerjalna tabela med Text Mining in Text Analytics
Spodaj so seznami točk, opišite primerjave med Text Mining in Text Analytics:
Osnove za primerjavo | Besedilo rudarjenje | Text Analytics |
Pomen | Izvajanje besedila je v bistvu čiščenje podatkov, ki so na voljo za analizo besedila | Text Analytics uporablja statistične in strojne tehnike učenja, da lahko predvidi / predpiše ali sklepa kakršne koli informacije iz podatkov, pridobljenih z besedilom. |
Koncept | Rudarjenje besedila je orodje, ki pomaga pri čiščenju podatkov. | Text Analytics je postopek uporabe algoritmov |
Okvir | Če govorimo o ogrodju, je rudarjenje besedila podobno ETL (Extract Transform Load), kar pomeni, da lahko vstavimo podatke v bazo, ti koraki pa se izvajajo | V besedilni analitiki se ti podatki uporabljajo za dodajanje vrednosti podjetju, na primer ustvarjanje besednih oblakov, diagrami frekvenc dv-gramov, N-grami v nekaterih primerih |
Jezik | Python in R sta najbolj znana orodja za rudarjenje besedil tam | Za analitiko besedila, ko so podatki na voljo na ravni baze podatkov, lahko uporabimo katero koli analitično programsko opremo, vključno s python-om in R. Ostala programska oprema vključuje Power BI, Azure, KNIME itd. |
Primeri |
|
|
Zaključek -Text Mining vs Text Analytics
Prihodnost rudarjenja besedil in analitike besedil ne velja le za angleščino, ampak tudi nenehno napredujemo in z uporabo jezikovnih orodij se za analizo ne štejejo le drugi angleški jeziki.
Obseg in prihodnost rudarjenja besedil se bosta povečevala, saj bo za analizo drugih jezikov omejenih virov.
Text Analytics ima zelo širok razpon, kjer ga je mogoče uporabiti, nekateri primeri industrije, kjer se to lahko uporablja, so:
- Spremljanje socialnih medijev
- Pharma / Biotech aplikacije
- Poslovne in marketinške aplikacije
Priporočeni članek
To je vodnik za razliko med Text Mining in Text Analytics, njihovim pomenom, primerjavo med seboj, ključnimi razlikami, primerjalno tabelo in sklepom. Če želite izvedeti več, si oglejte tudi naslednje članke -
- Azure Paas proti Iaas-Ugotovite razlike
- Najboljše 3 stvari, ki jih morate naučiti o rudarjenju podatkov v primerjavi z rudanjem besedil
- Pozanimajte se o najboljših 7 razlikah med Data Data Mining VS analizo podatkov
- Poslovna inteligenca vs strojno učenje - katera je boljša
- Napovedna analitika v primerjavi z iskanjem podatkov - kateri je bolj uporaben