Dokončni priročnik o delovanju besedilnega rudarjenja - eduCBA

Kazalo:

Anonim

Uvajanje besedila Uvod

Besedilo rudarjenja - V današnjem kontekstu je besedilo najpogostejše sredstvo za izmenjavo informacij. Toda razumevanje pomena iz besedila sploh ni lahko delo. Potrebujemo dobro orodje poslovne inteligence, ki nam bo pomagalo razumeti informacije na enostaven način.

Kaj je Text Mining

Text Mining je znan tudi kot Text Analytics. To je postopek razumevanja informacij iz nabora besedil. Text Mining je zasnovan tako, da podjetju pomaga pridobiti dragoceno znanje iz besedilne vsebine. Te vsebine so lahko v obliki besednega dokumenta, e-pošte ali objave na družbenih medijih.

Text Mining je uporaba avtomatiziranih metod za razumevanje znanja, ki je na voljo v besedilnih dokumentih.

Text Mining se lahko uporablja tudi za to, da računalnik razume strukturirane ali nestrukturirane podatke. Kvalitativni podatki ali nestrukturirani podatki so podatki, ki jih ni mogoče meriti s števili. Ti podatki običajno vsebujejo informacije, kot so barva, tekstura in besedilo. Kvantitativni ali strukturirani podatki so podatki, ki jih je mogoče enostavno izmeriti.

Rudarjenje besedil je interdisciplinarno področje, ki vključuje iskanje informacij, pridobivanje podatkov, strojno učenje, statistiko in drugo. Text Mining je nekoliko drugačno področje od rudarjenja podatkov.

Prednosti Text Mininga

Obstaja veliko prednosti uporabe Text Mininga. Spodaj so navedeni

  • Prihrani čas in vire ter deluje bolj učinkovito kot človeški možgani.
  • Pomaga slediti mnenjem skozi čas
  • Text Mining pomaga povzeti dokumente
  • Analiza besedila pomaga izvleči pojme iz besedila in jih predstaviti na bolj preprost način
  • Besedilo, ki je indeksirano s pomočjo rudarjenja besedil, se lahko uporablja v napovedni analitiki
  • Če želite uporabljati terminologijo na vašem območju, lahko vklopite kateri koli besednjak

Uporaba Text Mining

  • Imena različnih entitet in razmerja med besedilom je enostavno najti z različnimi tehnikami.
  • Pomaga pri pridobivanju vzorcev iz velike količine nestrukturiranih podatkov
  • Sistematični pregled literature - Lahko se poglobite v raziskovanje besedila, ugotovite ključne teme in poudarite ponavljajoče se besede ali besedilo in priljubljene teme v določenem obdobju.
  • Preizkušanje hipotez - s pomočjo rudarjenja besedil lahko določeno hipotezo preizkusimo, da vidimo, ali dokument hipotezo potrdi ali zavrne. Večinoma se v dokumentu najprej preizkusi uveljavljeno prepričanje.
Opomba:
Učinkovito razvijajte rešitve za poslovne težave. Naučite se definirati, analizirati in dokumentirati poslovne zahteve. Raziščite poslovne dejavnosti, da boste izboljšali njihovo učinkovitost.

Pomen rudarjenja besedil

  • Text Mining omogoča boljše in pametno odločanje
  • Pomaga pri reševanju težav z odkrivanjem znanja na različnih področjih poslovanja
  • Z iskanjem besedila lahko podatke enostavno predstavite na več načinov, kot so html tabele, grafikoni, grafikoni in drugo
  • Je odlično orodje za produktivnost. Daje boljše rezultate hitreje kot katero koli drugo orodje.
  • Orodje za rudarjenje besedila uporabljajo tako velike in manjše organizacije, ki so organizacije, ki temeljijo na znanju.

Uporaba Text Mining

  • Analiza odprtih anket

Odprta anketna vprašanja bodo anketirancem pomagala, da brez kakršnih koli omejitev podajo svoje mnenje ali mnenje. To bo pomagalo vedeti več o mnenjih kupcev kot zanašanje na strukturirane vprašalnike. Za analiziranje takšnih informacij v obliki besedila se lahko uporablja rudarjenje besedil.

  • Samodejna obdelava sporočil, e-poštnih sporočil

Text Mining se uporablja tudi za razvrščanje besedila. Text Mining se lahko uporablja za filtriranje nepotrebne pošte s pomočjo določenih besed ali fraz. Takšni poštni sporočili bodo samodejno zavrgli takšno pošto. Takšen avtomatski sistem razvrščanja in filtriranja izbranih sporočil in pošiljanju ustreznega oddelka se izvede s sistemom Text Mining. Text Mining bo uporabniku e-pošte poslal tudi opozorilo, da bo odstranil sporočila s takimi žaljivimi besedami ali vsebino.

  • Analiza garancijskih ali zavarovalnih zahtevkov

Podatki se v večini poslovnih organizacij zbirajo predvsem v obliki besedila. Na primer v bolnišnici se lahko na kratko pogovorijo bolniki v besedilni obliki, poročila pa tudi v obliki besedila. Te opombe so danes zbrane v elektronski obliki, tako da jih je mogoče enostavno prenesti v algoritme za iskanje besedil. Ti zapisi se lahko nato uporabijo za diagnozo dejanskega stanja.

  • Preiskovanje konkurentov z iskanjem njihovih spletnih strani

Drugo pomembno področje uporabe programa Text Mining je obdelava vsebine spletnih strani na določeni domeni. Na ta način sistem za rudarjenje besedil samodejno najde seznam izrazov, ki se uporabljajo na spletnem mestu. Na ta način je mogoče najti najpomembnejše izraze, uporabljene na spletni strani. Na ta način je mogoče vedeti, kakšne so zmožnosti o konkurentih, ki vam lahko pomagajo pri uspešnem poslovanju.

Druge aplikacije Text Mining vključujejo naslednje

  • Poslovna inteligenca
  • E Odkritje
  • Bioinformatika
  • Upravljanje evidenc
  • Nacionalna varnost ali obveščevalne službe delujejo
  • Spremljanje socialnih medijev

Tehnike, uporabljene pri iskanju besedila

V sistemu Text Mining se uporablja pet osnovnih tehnologij. Podrobneje so opisani v nadaljevanju

  1. Izvleček informacij

To se uporablja za analizo nestrukturiranega besedila z iskanjem pomembnih besed in iskanjem razmerij med njimi. V tej tehniki se postopek usklajevanja vzorcev uporablja za iskanje vrstnega reda v besedilu. Pomaga pri preoblikovanju nestrukturiranega besedila v strukturirano obliko. Tehnika pridobivanja informacij vključuje module za obdelavo jezika. To se večinoma uporablja tam, kjer je veliko podatkov. Postopek pridobivanja informacij je razložen na spodnji sliki.

  1. Kategorizacija

Tehnika kategorizacije besedilni dokument razvrsti v eno ali več kategorij. Na podlagi vhodnih izhodnih izhodov se razvrsti. Postopek kategorizacije vključuje predobdelavo, indeksiranje, zmanjšanje dimenzij in razvrščanje. Besedilo je mogoče kategorizirati z uporabo tehnik, kot so Naive Bayesov klasifikator, Odločilno drevo, Najbližji sosedov klasifikator in Podporni prodajni stroji.

  1. Grozd

Metoda grozda se uporablja za skupino besedilnih dokumentov s podobno vsebino. Ima particije, imenovane grozdi, in vsaka particija bo imela več dokumentov s podobno vsebino. Grozdanje zagotavlja, da nobenega dokumenta ne bo izpuščeno iz iskanja in iz njega izpeljejo vse dokumente, ki imajo podobno vsebino. K-sredstvo je pogosto uporabljena tehnika grozdenja. Ta tehnika primerja tudi vsako gručo in ugotovi, kako dobro je dokument povezan med seboj. Podjetja uporabljajo to tehniko za ustvarjanje baze podatkov z tisoč podobnimi dokumenti.

  1. Vizualizacija

Za poenostavitev postopka iskanja ustreznih informacij se uporablja tehnika vizualizacije. Ta tehnika uporablja besedilne zastavice za predstavljanje dokumentov ali skupine dokumentov, barve pa označuje kompaktnost. Tehnika vizualizacije pomaga prikazati besedilne informacije na privlačnejši način. Spodnja slika bo predstavljala tehniko vizualizacije

  1. Povzemanje

Tehnika povzetka bo pripomogla k zmanjšanju dolžine dokumenta in na kratko povzela podrobnosti dokumentov. Uporabnikom omogoča branje dokumentov in branje vsebine na prvi pogled. Povzetek nadomesti celoten niz dokumentov. Enostavno in hitro povzame velik besedilni dokument. Ljudje si vzamejo več časa za branje in povzetek dokumenta, vendar ta tehnika omogoča zelo hitro. Pomaga poudariti glavne točke v dokumentu. Postopek povzetka je predstavljen na spodnji sliki.

Metode in modeli, ki se uporabljajo pri iskanju besedila

Na podlagi pridobivanja informacij ima Text Mining štiri glavne metode

  1. Terminno zasnovana metoda (TBM)

Izraz v dokumentu pomeni besedo s pomenskim pomenom. Pri tej metodi se celoten niz dokumentov analizira na podlagi izraza. Glavna pomanjkljivost te metode je problem sinonimije in polisemije. Sopomenka je tista, kjer ima več besed enak pomen. Polisemija je tam, kjer ima ena beseda več pomenov.

  1. Metoda na osnovi fraze (PBM)

V tej metodi se dokument analizira na podlagi stavkov, ki so manj očitni več pomenom in bolj diskriminatorni. Slabosti te metode vključujejo

  • Imajo slabše statistične lastnosti glede na izraze
  • Imajo nizko pogostost pojavljanja
  • Imajo veliko hrupnih stavkov
  1. Metoda zasnovana na konceptu (CBM)

V tej metodi se dokument analizira na podlagi stavkov in ravni dokumenta. V tej metodi so tri glavne komponente. Prva komponenta proučuje pomenljiv del stavkov. Druga komponenta izdela konceptualni ontološki graf za razlago struktur. Tretja komponenta izvleče glavne koncepte, ki temeljijo na prvih dveh komponentah. Ta metoda lahko razlikuje med pomembnimi in nepomembnimi besedami.

  1. Metoda taksonomije vzorca (PTM)

V tej metodi se dokument analizira na podlagi vzorcev. Vzorce v dokumentu je mogoče najti z uporabo tehnik rudarjenja podatkov, kot so združevanje pravil vladanja, zaporedno vzorčenje, pogosto rudarjenje nabora predmetov in zaprto vzorčenje. Ta metoda uporablja dva procesa - uvajanje vzorca in vzorec, ki se razvija. Izkazalo se je, da ta metoda deluje bolje kot vsi drugi modeli ali metode.

Kako deluje Text Mining

Zdaj bi morali razumeti, da rudarjenje besedila omogoča razumevanje besedila bolje kot karkoli drugega. Text Mining sistem omogoča izmenjavo besed iz nestrukturiranih podatkov v številčne vrednosti. Rudarjenje besedila pomaga prepoznati vzorce in odnose, ki obstajajo znotraj velike količine besedila. Za branje besedila se pogosto uporabljajo računski algoritmi za branje in analiziranje besedilnih informacij. Brez rudarjenja besedila bo besedilo težko razumeti enostavno in hitro. Besedilo lahko rudamo na bolj sistematičen in izčrpen način, informacije o podjetju pa se lahko samodejno zajamejo. Spodaj so navedeni koraki v postopku rudarjenja besedila.

  • 1. korak: iskanje informacij

To je prvi korak v procesu pridobivanja podatkov. Ta korak vključuje pomoč iskalnika, da najde zbirko besedila, znanega tudi kot korpus besedil, ki bi morda potrebovali nekaj pretvorbe. Ta besedila morajo biti sestavljena tudi v določeni obliki, ki bo uporabnikom v pomoč. Običajno je XML standard za iskanje besedil

  • 2. korak: obdelava naravnega jezika

Ta korak omogoča sistemu, da izvede slovnično analizo stavka za branje besedila. Prav tako analizira besedilo v strukturah.

  • 3. korak: pridobivanje informacij

To je druga faza, kjer se ugotovi pomen določene označbe besedila. V tej fazi se v bazo podatkov o besedilu dodajo metapodatki. Vključuje tudi dodajanje imen ali lokacij besedilu. Ta korak omogoča iskalniku, da pridobi informacije in ugotovi razmerja med besedili z uporabo svojih metapodatkov.

  • 4. korak: Podatkovno rudarjenje

Končna faza je pridobivanje podatkov z uporabo različnih orodij. Ta korak najde podobnosti med informacijami, ki imajo enak pomen, ki jih bo sicer težko najti. Text Mining je orodje, ki pospešuje raziskovalni proces in pomaga pri testiranju poizvedb.

Besedilo rudarjenja vključuje naslednji seznam elementov

  • Kategorizacija besedila
  • Grupiranje besedil
  • Koncept / črpanje entitete
  • Granularne taksonomije
  • Analiza občutka
  • Povzetek dokumenta
  • Modeliranje entitetskih odnosov

Izzivi rudarjenja besedil

Glavni izziv sistema Text Mining je naravni jezik. Naravni jezik se sooča s problemom dvoumnosti. Nejasnost pomeni en izraz, ki ima več pomenov, en stavek pa se razlaga na različne načine in posledično dobimo različne pomene.

Druga omejitev je, da uporaba sistema za pridobivanje informacij vključuje semantično analizo. Zaradi tega celotno besedilo ni predstavljeno, uporabnikom je predstavljen le omejen del besedila. Toda v teh dneh je potrebno več razumevanja besedila.

Text Mining ima tudi omejitve glede zakonodaje o avtorskih pravicah. Pri iskanju dokumenta je veliko omejitev. Največkrat vključuje pravice imetnikov avtorskih pravic. Večine besedil ne bo mogoče najti kot odprtokodno in v takih primerih so potrebna dovoljenja ustreznih avtorjev, založnikov in drugih povezanih oseb.

Še ena omejitev je, da rudarjenje besedil ne ustvari novih dejstev in ni končni postopek.

Zaključek

Rudarjenje besedil ali analitika besedil je cvetoča tehnologija, vendar so rezultati in globina analize od podjetja do podjetja različni. Organizacija lahko z iskanjem besedila pridobi znanje o vsebinsko določenih vrednostih.