Text Mining vs Text Analytics - kdo je boljši

Razlike med urejanjem besedila v primerjavi z besedilno analitiko

Strukturirani podatki obstajajo že od zgodnjih devetdesetih let prejšnjega stoletja, toda tisto, zaradi česar so rudarjenje besedil in analitika besedil tako posebni, je to, da se podatki izkoristijo iz nestrukturiranih podatkov (Natural Language Processing). Ko bomo lahko to nestrukturirano besedilo pretvorili v polstrukturirane ali strukturirane podatke, bomo lahko uporabili vse algoritme za rudarjenje podatkov, npr. Statistični in strojni algoritmi učenja.

Tudi Donald Trump je podatke lahko izkoristil in jih pretvoril v informacije, ki so mu pomagale pri zmagi na ameriških predsedniških volitvah, v bistvu pa tega ni storil, kar so počeli njegovi podrejeni. Tu je zelo dober članek http://fivethirtyeight.com/features/the-real-story-of-2016/, ki ga lahko preberete.

Številna podjetja so začela uporabljati rudarjenje besedil za uporabo dragocenih vložkov iz besedila, ki je na voljo tam, na primer podjetje, ki temelji na izdelkih, lahko s pomočjo Sentimental uporabi podatke twitterja / Facebooka, da ve, kako dobro ali slabo je njihov izdelek tam na svetu. Analiza. V zgodnjih dneh je obdelava trajala veliko časa, dni, v resnici za obdelavo ali celo izvajanje algoritmov strojnega učenja, vendar z uvedbo orodij, kot so Hadoop, Azure, KNIME in druge velike programske opreme za obdelavo podatkov, rudarjenje besedil je na trgu pridobilo izjemno priljubljenost. Eden najboljših primerov analitike besedila z uporabo združevalnega rudarjenja je Amazonov mehanizem za priporočila, kjer svojim strankam samodejno daje priporočila, kaj so drugi kupili pri nakupu katerega koli določenega izdelka.

Eden največjih izzivov uporabe orodij za iskanje besedila na nekaj, kar ni v digitalni obliki / na računalniškem pogonu, je postopek izdelave. Stari arhivi in številni pomembni dokumenti, ki so na voljo samo na papirjih, se včasih preberejo prek OCR (optično prepoznavanje znakov), ki ima veliko napak, včasih pa se podatki vnesejo ročno, kar je nagnjeno k človeškim napakam. Razlog, da to želimo, je, da bomo morda dobili drugačna spoznanja, ki niso vidna iz tradicionalnega branja.

Nekateri koraki rudarjenja besedila so navedeni spodaj

Iskanje informacij
Priprava in čiščenje podatkov
Segmentacija
Tokenizacija
Številke stop besed in odstranjevanje ločil
Iztegovanje
Pretvarjanje v male črke
POS označevanje
Ustvari besedilni korpus
Matrica izraza-dokumenta

Spodaj so koraki v besedilni analitiki, ki se uporabijo po pripravi matrike izraza dokumenta

Modeliranje (lahko vključuje naključne modele, prediktivne modele ali predpisujoče modele)
Usposabljanje in vrednotenje modelov
Uporaba teh modelov
Vizualizacija modelov

Edino, kar se mora vedno spomniti, je, da rudarjenje besedil vedno stoji pred analitiko besedila.

Primerjava med besedami in med Text Text-om in Text Analytics (Infographics)

Spodaj je primerjava 5 primerjave med predvidevanjem rudanja besedila in analitike besedila

Ključne razlike med Text Texting in Text Analytics

Ločimo ločevanje besedil in analitiko besedila na podlagi korakov, ki so vključeni v nekaj aplikacij, pri katerih se uporabljata tako rudarjenje besedil kot analitika besedila:

• Razvrstitev dokumentov
Pri tem so koraki, ki so vključeni v rudarjenje besedil, tokenizacija, omejevanje in lematizacija, odstranjevanje ustavljalk in ločil ter končno izračunavanje matrike term ali frekvenčnih dokumentov.

Tokenizacija - Proces delitve celotnih podatkov (korpusa) na manjše koščke ali manjše besede je običajno ena sama beseda znana kot tokenizacija (N-Gram model ali Torba besed Model)

Iztegovanje in Lematizacija - Na primer besede velike večje in največje pomenijo isto in oblikovali bodo podvojene podatke, da bi ostali podatki odvečni, naredimo lematizacijo, povezovanje besed s korensko besedo.
Odstranjevanje zaustavitvenih besed - Stop besede niso uporabne za analitiko, ki bo vsebovala besede, kot je,, itd.

Izraz frekvence - To je matrica, ki ima glave vrstic kot imena dokumentov in stolpce kot izraze (besede), podatki pa so pogostost besed, ki se pojavljajo v teh določenih dokumentih. Spodaj je vzorčni posnetek zaslona.

Na zgornji sliki imamo atribute v vrsticah (besede) in številko dokumenta kot stolpce in besedno frekvenco kot podatke.

Zdaj, ko gre za analitiko besedila, moramo upoštevati naslednje korake

Grupiranje - Z uporabo K-sredstev združevanje / Nevronske mreže / CART (drevesa za klasifikacijo in regresijo) ali katerega koli drugega algoritma združevanja lahko dokumente združujemo na podlagi ustvarjenih funkcij (tukaj so besede).

Vrednotenje in vizualizacija - Grozd oblikujemo v dve dimenziji in poglejmo, kako se ti grozdi med seboj razlikujejo, in če model drži testne podatke, ga lahko uporabimo v proizvodnji in bo dober klasifikator dokumentov, ki bo razvrstil vse nove dokumentov, ki so podani kot vnos in bi samo poimenovali gručo, v katero bo sodil.

• Analiza občutka

Eno najmočnejših orodij na trgu, ki pomagajo pri obdelavi podatkov twitterja / Facebooka ali kakršnih koli drugih podatkov, ki se lahko uporabijo za izpeljavo občutkov iz tega, ali je občutek dober, slab ali nevtralen za določen postopek / izdelek ali oseba je analiza sentimenta.
Vir podatkov je lahko dostopen z uporabo API-ja twitter / Facebook API, da na tvitu ali objavi podjetja dobite tvite / komentarje / všečke itd. Večji problem je, ker je te podatke težko strukturirati. Podatki bi vsebovali tudi različne oglase in podatkovni znanstvenik, ki dela v podjetju, mora poskrbeti, da bo izbira podatkov potekala pravilno, tako da bodo v fazi predhodne obdelave potekali samo izbrani tweet-ji / objave.
Druga orodja vključujejo spletno strganje, to je del rudarjenja besedila, pri katerem podatke s spletnih pajkov berete.
Postopek rudarjenja besedila ostaja enak kot tokenizacija, omejevanje in lematizacija, odstranjevanje ustavljalk in ločil ter končno računanje, izraz frekvenčne matrice ali matrike frekvenc dokumentov, vendar je edina razlika med uporabo analize sentimentov.
Običajno damo oceno na katero koli objavo / tvit. Običajno, ko kupite izdelek in pregledate, če imate tudi možnost, da v pregled dodate zvezdice in objavite komentar. Google, Amazon in druga spletna mesta uporabljajo zvezde za oceno komentarjev, ne le, da sprejmejo tudi tvite / objave in jih dajo ljudem, da jih ocenijo kot dobre / slabe / nevtralne in če združijo ta dva rezultata, ustvarijo novo rezultat do katerega koli določenega tvita / objave.
Vizualizacijo analize občutkov lahko izvedemo z uporabo besednega oblaka, črtnih grafikonov frekvenčne terminske matrice.

• Združenje rudarskih analiz

Ena od aplikacij, na kateri so nekateri fantje delali, je bil „verjetnostni model neželenih učinkov drog“, v katerem lahko preverimo, kateri neželeni učinki lahko povzročijo druge neželene učinke, če jemlje katero koli zdravilo.
Izvajanje besedila je vključevalo spodnji potek dela

Iz zgornje slike lahko razberemo, da do rudarjenja podatkov vsi koraki pripadajo rudarjenju besedila, ki identificira vir podatkov, jih izvleče in nato pripravi na analizo.

Nato uporabimo asociacijsko rudarjenje imamo spodnji model
Kot lahko vidimo, da nekatere puščice kažejo na oranžni krog in nato ena puščica kaže na katerikoli določen ADE (Neželeni dogodek zaradi drog). Če vzamemo primer na levi spodnji strani slike, lahko najdemo apatijo, astenijo in občutek nenormalnega, kar vodi v občutek krivde. No, lahko rečemo, da je to očitno, je očitno, ker kot človek lahko razlagate in povežete, tukaj pa stroj to razlaga in nam daje naslednji neželeni dogodek zaradi drog.

Primer besede oblak je kot spodaj

Primerjalna tabela med Text Mining in Text Analytics

Spodaj so seznami točk, opišite primerjave med Text Mining in Text Analytics:

Osnove za primerjavo	Besedilo rudarjenje	Text Analytics
Pomen	Izvajanje besedila je v bistvu čiščenje podatkov, ki so na voljo za analizo besedila	Text Analytics uporablja statistične in strojne tehnike učenja, da lahko predvidi / predpiše ali sklepa kakršne koli informacije iz podatkov, pridobljenih z besedilom.
Koncept	Rudarjenje besedila je orodje, ki pomaga pri čiščenju podatkov.	Text Analytics je postopek uporabe algoritmov
Okvir	Če govorimo o ogrodju, je rudarjenje besedila podobno ETL (Extract Transform Load), kar pomeni, da lahko vstavimo podatke v bazo, ti koraki pa se izvajajo	V besedilni analitiki se ti podatki uporabljajo za dodajanje vrednosti podjetju, na primer ustvarjanje besednih oblakov, diagrami frekvenc dv-gramov, N-grami v nekaterih primerih
Jezik	Python in R sta najbolj znana orodja za rudarjenje besedil tam	Za analitiko besedila, ko so podatki na voljo na ravni baze podatkov, lahko uporabimo katero koli analitično programsko opremo, vključno s python-om in R. Ostala programska oprema vključuje Power BI, Azure, KNIME itd.
Primeri	kategorizacija besedila združevanje besedil koncept / entiteta ekstrakcija analiza sentimenta povzetek dokumentov izdelava zrnatih taksonomij Modeliranje odnosov med subjekti	Analiza zveze vizualizacija napovedna analitika iskanje informacij leksikalna analiza prepoznavanje vzorcev označevanje / opomba

Zaključek -Text Mining vs Text Analytics

Prihodnost rudarjenja besedil in analitike besedil ne velja le za angleščino, ampak tudi nenehno napredujemo in z uporabo jezikovnih orodij se za analizo ne štejejo le drugi angleški jeziki.

Obseg in prihodnost rudarjenja besedil se bosta povečevala, saj bo za analizo drugih jezikov omejenih virov.

Text Analytics ima zelo širok razpon, kjer ga je mogoče uporabiti, nekateri primeri industrije, kjer se to lahko uporablja, so:

Spremljanje socialnih medijev
Pharma / Biotech aplikacije
Poslovne in marketinške aplikacije

Priporočeni članek

To je vodnik za razliko med Text Mining in Text Analytics, njihovim pomenom, primerjavo med seboj, ključnimi razlikami, primerjalno tabelo in sklepom. Če želite izvedeti več, si oglejte tudi naslednje članke -

Azure Paas proti Iaas-Ugotovite razlike
Najboljše 3 stvari, ki jih morate naučiti o rudarjenju podatkov v primerjavi z rudanjem besedil
Pozanimajte se o najboljših 7 razlikah med Data Data Mining VS analizo podatkov
Poslovna inteligenca vs strojno učenje - katera je boljša
Napovedna analitika v primerjavi z iskanjem podatkov - kateri je bolj uporaben

Text Mining vs Text Analytics - kdo je boljši

Kazalo:

Razlike med urejanjem besedila v primerjavi z besedilno analitiko

Primerjava med besedami in med Text Text-om in Text Analytics (Infographics)

Ključne razlike med Text Texting in Text Analytics

• Analiza občutka

• Združenje rudarskih analiz

Primerjalna tabela med Text Mining in Text Analytics

Zaključek -Text Mining vs Text Analytics

Priporočeni članek

Nasveti za upravljanje s strankami za boljše in nemoteno poslovanje

Arhitektura v oblaku - Značilnosti in arhitektura

Prednosti računalništva v oblaku - Spoznajte prednosti računalništva v oblaku

Razvrstitev nevronske mreže - Različne vrste osnovnih nevronskih mrež

Diagram razreda - Vrste in primeri - Odnos in prednosti

Pregled orodij in orodne vrstice Photoshop

Kako uporabljati ploščo Navigator v programu Photoshop

5 načinov za premikanje slike ali sloja med dokumenti Photoshopa

Kako prilagoditi orodno vrstico v Photoshopu CC

Najboljših 5 načinov mešanice Photoshop, ki jih morate poznati - Photoshop Essentials

Klavzula SQL HAVING - Klavzula SQL HAVING s sintakso in primerom

Omejitve strežnika SQL - Top 5 najpogosteje uporabljanih omejitev strežnika SQL

Ukazi SQL - Pojmi - Osnovni in napredni ukazi

10 bistvenih vprašanj za intervju s strežnikom SQL (Posodobljeno za 2019)

Podatkovne vrste SQL - Top 6 različnih vrst podatkov SQL s primeri