Meniu Închide

Algoritmi de clasificare în învățarea mașinilor: Cum funcționează

Clasificarea este unul dintre cele mai fundamentale concepte din știința datelor. Algoritmii de clasificare sunt calcule predictive utilizate pentru a atribui datele unor categorii prestabilite prin analizarea seturilor de date de instruire.

  • Ce este clasificarea?
  • Top 5 Algoritmi de clasificare în Machine Learning
  • 4 Aplicații ale algoritmilor de clasificare

Ce este clasificarea?

Clasificarea este procesul de recunoaștere, înțelegere și grupare a ideilor și obiectelor în categorii prestabilite sau „subpopulații”. Utilizând seturi de date de instruire pre-categorizate, programele de învățare automată utilizează o varietate de algoritmi pentru a clasifica viitoarele seturi de date în categorii.

Algoritmii de clasificare în învățarea automată utilizează datele de instruire de intrare pentru a prezice probabilitatea ca datele ulterioare să se încadreze într-una dintre categoriile prestabilite. Una dintre cele mai comune utilizări ale clasificării este filtrarea e-mailurilor în „spam” sau „non-spam”.

Prin scurt, clasificarea este o formă de „recunoaștere a modelelor”, cu algoritmi de clasificare aplicați datelor de instruire pentru a găsi același model (cuvinte sau sentimente similare, secvențe de numere etc.) în viitoarele seturi de date.

Utilizând algoritmi de clasificare, despre care vom intra în mai multe detalii mai jos, software-ul de analiză a textului poate efectua lucruri cum ar fi analiza sentimentelor pentru a clasifica textul nestructurat în funcție de polaritatea opiniei (pozitivă, negativă, neutră și altele).

Încercați acest clasificator de sentiment pre-antrenat pentru a înțelege cum funcționează algoritmii de clasificare în practică, apoi citiți mai departe pentru a afla mai multe despre diferitele tipuri.

Top 5 Algoritmi de clasificare în învățarea automată

Studiul clasificării în statistică este vast și există mai multe tipuri de algoritmi de clasificare pe care îi puteți utiliza în funcție de setul de date cu care lucrați. Mai jos sunt prezentați cinci dintre cei mai comuni algoritmi în învățarea automată.

Diverse tipuri de algoritmi de clasificare:

  • Logistic Regression
  • Naive Bayes Classifier
  • K-Nearest Neighbors
  • Decision Tree
    • Random Forest
  • Support Vector Machines

Logistic Regression

Logistic regression is a calculation used to predict a binary outcome: either something happens, or does not. This can be exhibited as Yes/No, Pass/Fail, Alive/Dead, etc.

Independent variables are analyzed to determine the binary outcome with the results falling into one of two categories. The independent variables can be categorical or numeric, but the dependent variable is always categorical. Written like this:

P(Y=1|X) or P(Y=0|X)

It calculates the probability of dependent variable Y, given independent variable X.

This can be used to calculate the probability of a word having a positive or negative connotation (0, 1, or on a scale between). Sau poate fi folosit pentru a determina obiectul conținut într-o fotografie (copac, floare, iarbă etc.), fiecărui obiect fiindu-i atribuită o probabilitate între 0 și 1.

Naive Bayes Classifier

Naive Bayes calculează posibilitatea ca un punct de date să aparțină sau nu unei anumite categorii. În analiza de text, acesta poate fi utilizat pentru a clasifica cuvinte sau fraze ca aparținând sau nu unei „etichete” prestabilite (clasificare). De exemplu:

imagine7 2

Pentru a decide dacă o frază ar trebui sau nu să fie etichetată ca „sport”, trebuie să calculați:

Sau… probabilitatea ca A, dacă B este adevărat, este egală cu probabilitatea ca B, dacă A este adevărat, înmulțită cu probabilitatea ca A să fie adevărat, împărțită la probabilitatea ca B să fie adevărat.

K-nearest Neighbors

K-nearest neighbors (k-NN) este un algoritm de recunoaștere a tiparelor care utilizează seturi de date de instruire pentru a găsi cele mai apropiate k rude în exemplele viitoare.

Când k-NN este utilizat în clasificare, se calculează pentru a plasa datele în categoria celui mai apropiat vecin al său. Dacă k = 1, atunci ar fi plasat în clasa cea mai apropiată de 1. K este clasificat de un pol de pluralitate a vecinilor săi.

Arborele de decizie

Un arbore de decizie este un algoritm de învățare supravegheată care este perfect pentru problemele de clasificare, deoarece este capabil să ordoneze clasele la un nivel precis. Acesta funcționează ca o diagramă de flux, separând punctele de date în două categorii similare la un moment dat, de la „trunchiul arborelui” la „ramuri”, la „frunze”, unde categoriile devin mai finit similare. Acest lucru creează categorii în interiorul categoriilor, permițând o clasificare organică cu o supraveghere umană limitată.

Pentru a continua cu exemplul sportiv, iată cum funcționează arborele de decizie:

Un exemplu de arbore de decizie care împarte diferite sporturi.

Foresta aleatorie

Algoritmul pădurii aleatorii este o extindere a arborelui de decizie, în sensul că, mai întâi, construiți niște arbori de decizie din lumea reală pe anumite axe cu date de instruire, apoi potriviți noile date în cadrul unuia dintre arbori ca „pădure aleatorie”.

Este, în esență, face o medie a datelor dvs. pentru a le conecta la cel mai apropiat arbore de pe scara datelor. Modelele de pădure aleatorie sunt utile deoarece remediază problema arborelui de decizie de a „forța” punctele de date în cadrul unei categorii în mod inutil.

Mașini vectoriale de suport

O mașină vectorială de suport (SVM) utilizează algoritmi pentru a antrena și clasifica datele în grade de polaritate, ducând-o la un grad dincolo de predicția X/Y.

Pentru o explicație vizuală simplă, vom folosi două etichete: roșu și albastru, cu două caracteristici de date: X și Y, apoi vom antrena clasificatorul nostru pentru a produce o coordonată X/Y ca fiind fie roșie, fie albastră.

imagine4 3

Apoi, SVM-ul atribuie un hiperplan care separă cel mai bine etichetele. În două dimensiuni, acesta este pur și simplu o linie. Tot ceea ce se află de o parte a liniei este roșu și tot ceea ce se află de cealaltă parte este albastru. În analiza sentimentelor, de exemplu, acest lucru ar fi pozitiv și negativ.

Pentru a maximiza învățarea automată, cel mai bun hiperplan este cel care are cea mai mare distanță între fiecare tag:

imagine3 2

Cu toate acestea, pe măsură ce seturile de date devin mai complexe, este posibil să nu fie posibilă trasarea unei singure linii pentru a clasifica datele în două tabere:

image2 3

Utilizând SVM, cu cât datele sunt mai complexe, cu atât predictorul va deveni mai precis. Imaginați-vă imaginea de mai sus în trei dimensiuni, cu o axă Z adăugată, astfel încât să devină un cerc.

Mapped back to two dimensions with the best hyperplane, it looks like this:

image6 2

SVM permite o învățare automată mai precisă, deoarece este multidimensională.

4 Aplicații ale algoritmilor de clasificare

Ok, deci acum înțelegem un pic din matematica din spatele clasificării, dar ce pot face acești algoritmi de învățare automată cu date din lumea reală?

  • Analiza sentimentelor
  • Clasificarea spam-ului prin e-mail
  • Clasificarea documentelor
  • Clasificarea imaginilor

Analiza sentimentelor

Analiza sentimentelor este o tehnică de analiză a textului de învățare automată care atribuie sentiment (opinie, sentiment sau emoție) cuvintelor dintr-un text sau unui text întreg, pe o scară de polaritate de Pozitiv, Negativ sau Neutru.

Acesta poate citi automat mii de pagini în câteva minute sau poate monitoriza în mod constant rețelele de socializare pentru postări despre dvs. Tweetul de mai jos, de exemplu, despre aplicația de mesagerie, Slack, ar fi analizat pentru a extrage toate afirmațiile individuale ca fiind Pozitive. Acest lucru permite companiilor să urmărească lansările de produse și campaniile de marketing în timp real, pentru a vedea cum reacționează clienții.

image5 3

Utilizând algoritmi avansați de învățare automată, modelele de analiză a sentimentelor pot fi antrenate pentru a citi lucruri precum sarcasmul și cuvintele folosite greșit sau scrise greșit. Odată antrenate în mod corespunzător, modelele produc rezultate corecte în mod constant într-o fracțiune din timpul necesar oamenilor.

Scufundă-te direct pentru a încerca instrumentul de clasificare a sentimentului pre-antrenat de la MonkeyLearn. Sau învățați cum să vă construiți propriul clasificator de sentiment în funcție de limbajul și nevoile afacerii dumneavoastră.

Clasificarea spam-ului prin e-mail

Una dintre cele mai comune utilizări ale clasificării, lucrând non-stop și cu puțină nevoie de interacțiune umană, clasificarea spam-ului prin e-mail ne salvează de sarcini plictisitoare de ștergere și, uneori, chiar de escrocherii de phishing costisitoare.

Aplicațiile de e-mail folosesc algoritmii de mai sus pentru a calcula probabilitatea ca un e-mail să nu fie destinat destinatarului sau să fie un spam nedorit. Cu ajutorul tehnicilor de clasificare a analizei textului, e-mailurile spam sunt eliminate din căsuța de primire obișnuită: poate că numele destinatarului este scris incorect sau sunt folosite anumite cuvinte cheie de înșelăciune.

Clasificatoarele de spam trebuie totuși să fie antrenate până la un anumit punct, așa cum am experimentat cu toții atunci când ne-am înscris pe o listă de e-mailuri de un anumit fel care a ajuns în dosarul de spam.

Clasificarea documentelor

Clasificarea documentelor este ordonarea documentelor în categorii în funcție de conținutul lor. Anterior, acest lucru se făcea manual, ca în biblioteconomie sau în dosarele juridice ordonate manual. Cu toate acestea, algoritmii de clasificare prin învățare automată permit ca acest lucru să fie realizat în mod automat.

Clasificarea documentelor diferă de clasificarea textelor, în sensul că sunt clasificate documente întregi, mai degrabă decât doar cuvinte sau fraze. Acest lucru este pus în practică atunci când se utilizează motoare de căutare online, se fac trimiteri încrucișate între subiecte în documente juridice și se caută în dosarele medicale în funcție de medicamente și diagnostice.

Clasificarea imaginilor

Clasificarea imaginilor atribuie categorii antrenate anterior unei imagini date. Acestea pot fi subiectul imaginii, o valoare numerică, o temă etc. Clasificarea imaginilor poate utiliza chiar clasificatori de imagini cu mai multe etichete, care funcționează similar clasificatorilor de text cu mai multe etichete, pentru a eticheta o imagine a unui curs de apă, de exemplu, în diferite etichete, cum ar fi „curs de apă”, „apă”, „în aer liber” etc.

Utilizând algoritmi de învățare supravegheată, puteți eticheta imagini pentru a vă antrena modelul pentru categoriile corespunzătoare. La fel ca în cazul tuturor modelelor de învățare automată, cu cât îl antrenați mai mult, cu atât va funcționa mai bine.

Încheiere

Clasificarea prin învățare automată utilizează ghidajul demonstrabil matematic al algoritmilor pentru a efectua sarcini analitice care ar necesita sute de ore în plus pentru a fi efectuate de către oameni. Iar cu algoritmii potriviți și cu un model instruit corespunzător, programele de clasificare funcționează la un nivel de precizie pe care oamenii nu l-ar putea atinge niciodată.

MonkeyLearn este o platformă de analiză de text cu zeci de instrumente pentru a vă face afacerea să avanseze cu informații bazate pe date. Încercați instrumentele de clasificare pre-antrenate de mai jos pentru a vedea cum funcționează:

  • Sentiment Classifier
  • Intent and Email Classifier
  • Survey Feedback Classifier

MonkeyLearn merge mult dincolo de clasificare cu instrumente de analiză de text care vă vor oferi rezultatele de date de care afacerea dvs. are nevoie. Solicitați o demonstrație pentru a afla mai multe despre instrumentele avansate de analiză a textului de la MonkeyLearn.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *