Kaj je NLP v Pythonu?

Umetna inteligenca se je v zadnjem desetletju izjemno razvila in tako je tudi eno od njenih polj - obdelava naravnega jezika. Napredek v AI je posledica velike računalniške zmogljivosti sodobnih sistemov in velikega števila nestrukturiranih podatkov, ki nastajajo iz množice virov. Obdelava naravnega jezika ali NLP je študija AI, ki računalnikom omogoča obdelavo neobdelanih besedilnih podatkov in iz njih črpa skrite vpoglede.

Opredelitev

Računalniki za razliko od ljudi niso dovolj pametni za obdelavo nestrukturiranih podatkov. Človeška bitja bi iz teh podatkov lahko izpeljala pomene, medtem ko bi računalniki to lahko storili le s strukturiranimi podatki, shranjenimi v zbirkah podatkov. Za iskanje vzorcev in pridobivanje pomena iz naravnih podatkov računalniki uporabljajo orodja in tehnike, vključene v NLP, za obdelavo takšnih podatkov.

Kako NLP deluje v Pythonu?

Branje in razumevanje angleščine je zelo zapleteno. Spodnji stavek je en tak primer, ko je računalniku res težko razumeti dejansko misel za stavkom.

V strojnem učenju je cevovod sestavljen za vsako težavo, kjer se vsak kos problema reši posebej z uporabo ML. Končni rezultat bi bila kombinacija več modelov strojnega učenja, vezanih skupaj. Obdelava naravnega jezika deluje podobno kot pri angleškem stavku, razdeljen na koščke.

V tem odstavku je več dejstev. Stvari bi bile enostavne, če bi računalniki sami razumeli, kaj je London, toda za to morajo biti računalniki usposobljeni z osnovnimi koncepti pisnega jezika.

1. Segmentacija kazni - korpus je razdeljen na več stavkov, kot je spodaj.

To bi nam olajšalo življenje, saj je bolje obdelati en stavek kot odstavek kot celoto. Razdelitev se lahko izvede na podlagi ločil ali več drugih zapletenih tehnik, ki deluje tudi na neočiščenih podatkih.

2. Tokenizacija besed - stavek bi lahko nadalje razdelili na žetone besed, kot je prikazano spodaj.

Po tokenizaciji se zgornji stavek razdeli na -

3. Deli napovedi govora - ta postopek govori o ustvarjanju delov govora za vsak znak. To bi nam omogočilo razumevanje pomena stavka in teme, o kateri se v stavku govori.

4. Lematizacija - Beseda v stavku se lahko pojavi v različnih oblikah. Lemmatizacija sledi besedi nazaj do njenega korena, tj. Lemi vsake besede.

5. Identifikacija zaustavitve besed - V stavku je veliko besed za polnjenje, kot so ', ', '. Te besede delujejo kot šum v besedilu, katerega pomen poskušamo izluščiti. Zato je treba zgraditi boljši model filtrirati te stop besede.

Glede na aplikacijo bi se besede za zaustavitev lahko spreminjale. Vendar pa obstaja vnaprej določen seznam postankov, na katere bi se lahko sklicevali.

6. Priznavanje imenovanega subjekta - NER je postopek iskanja stavkov, kot so ime, kraj, oseba, organizacija itd.

Tu je uporabljen kontekst pojava besede v stavku. NER sistemi imajo veliko besed, da zgradijo strukturirane podatke iz besedila.

Primer NLP v Pythonu

Večina podjetij je zdaj pripravljena obdelovati nestrukturirane podatke za rast poslovanja. NLP ima široko paleto načinov uporabe, najpogostejša primera uporabe pa je klasifikacija besedila.

Razvrstitev besedila v različne kategorije se samodejno imenuje klasifikacija besedila. Odkrivanje neželene pošte ali pršuta v e-pošti, kategorizacija novic je nekaj pogostih primerov razvrščanja besedil. Podatke, ki se uporabljajo v ta namen, je treba označiti.

Nekaj ​​korakov v tekstu za razvrščanje besedila, ki jih je treba upoštevati, je -

  • Nalaganje in predhodna obdelava podatkov je prvi korak, nato pa bi se razdelil na vlak in niz potrditve.
  • Korak Feature Engineering vključuje pridobivanje uporabnih funkcij ali ustvarjanje dodatnih smiselnih funkcij, ki bi pomagale pri razvoju boljšega napovednega modela.
  • Za izdelavo modela se za usposabljanje modela uporablja označeni nabor podatkov.

Pandas, Scikit-learn, XGBoost, TextBlog, Keras so nekatere potrebne knjižnice, ki jih moramo namestiti. Nato bi uvozili knjižnice za pripravo nabora podatkov, inženiring funkcij itd.

Podatkov je ogromno, od tu jih lahko prenesete skoraj 3, 6 milijona pregledov. Uporabljen je del podatkov. Naloži se in prebere v podatkovni okvir Pandas.

Ciljna spremenljivka je zakodirana in podatki so razdeljeni na vlak in testne sklope.

Funkcijski inženiring se izvaja po spodnjih različnih metodah.

1. Vektorji štetja - Vektorski števci dosežejo predstavitev dokumenta, izraza in njegove frekvence v korpusu.

2. Vektorji TF-IDF - V dokumentu je relativni pomen izraza predstavljen z izrazom Frekvenčna frekvenca (TF) in ocena obratne frekvence dokumenta (IDF). TF-IDF je mogoče izračunati po -

Vektorje TF-IDF lahko ustvarijo ravni Word, ki predstavljajo rezultat vsakega izraza, in raven N-gramov, ki je kombinacija n-izrazov.

3. Vdelava besed - Predstavitev dokumentov in besed v obliki gostega vektorja je znana kot vdelava besed. Obstajajo predhodno usposobljeni vdelavi, kot so Glove, Word2Vec, ki jih je mogoče uporabiti ali pa bi jih lahko tudi usposobili.

4. Modeli tem - To je skupina besed iz dokumenta, ki vsebuje največ informacij. Za modeliranje tem se tukaj uporablja dodelitev Latentni Dirichlet.

Način je vgrajen po opravljenem inženiringu funkcij in izvlečenih ustreznih lastnosti.

5. Naiven Bayes - temelji na Bayesovem teoremu in algoritem meni, da med funkcijami v naboru podatkov ni povezave.


6. Logistična regresija - meri linearno razmerje med značilnostmi, ciljna spremenljivka pa se meri na podlagi sigmoidne funkcije, ki oceni verjetnosti.


7. Podporni vektorski stroj - Hiperplana ločuje dva razreda v SVM.


8. Naključni model gozda - Ansambelski model, pri katerem se zmanjša varianca in skupaj združi več dreves odločitev.


9. XG Boost - pristranskost se zmanjša, šibki učenci pa se pretvorijo v močne.

Kako bi vam NLP pomagal pri karieri?

Obdelava naravnega jezika je cvetoče področje na trgu in skoraj vsaka organizacija potrebuje inženirja NLP, ki jim pomaga obdelati neobdelane podatke. Zato je nujno treba obvladati potrebna znanja, saj na trgu ne bi primanjkovalo delovnih mest.

Zaključek: NLP v Pythonu

V tem članku smo začeli z uvedbo NLP-ja v Pythonu in nato implementirali en primer uporabe v Pythonu, da bi pokazali, kako delati z NLP v Python-u.

Priporočeni članki

To je vodnik za NLP v Pythonu. Tu smo razpravljali o primeru, uporabi primerov in kako delati z NLP v Pythonu. Če želite izvedeti več, lahko preberete tudi druge naše predlagane članke -

  1. Uporaba Pythona
  2. Kaj je WBS?
  3. Python proti Scali
  4. Kaj je Tableau?

Kategorija: