Meny Stäng

Klassificeringsalgoritmer i maskininlärning: Hur de fungerar

Klassificering är ett av de mest grundläggande begreppen inom datavetenskap. Klassificeringsalgoritmer är prediktiva beräkningar som används för att tilldela data till förinställda kategorier genom att analysera uppsättningar av träningsdata.

  • Vad är klassificering?
  • De fem viktigaste klassificeringsalgoritmerna inom maskininlärning
  • 4 tillämpningar av klassificeringsalgoritmer

Vad är klassificering?

Klassificering är en process för att känna igen, förstå och gruppera idéer och objekt i förinställda kategorier eller ”subpopulationer”. Med hjälp av förkategoriserade träningsdatamängder använder maskininlärningsprogram olika algoritmer för att klassificera framtida datamängder i kategorier.

Klassificeringsalgoritmer i maskininlärning använder inmatade träningsdata för att förutsäga sannolikheten för att efterföljande data kommer att hamna i en av de förutbestämda kategorierna. En av de vanligaste tillämpningarna av klassificering är att filtrera e-postmeddelanden i ”skräppost” eller ”icke-spam”.

Klassificering är kort sagt en form av ”mönsterigenkänning”, där klassificeringsalgoritmer tillämpas på träningsdata för att hitta samma mönster (liknande ord eller känslor, siffersekvenser etc.) i framtida datamängder.

Med hjälp av klassificeringsalgoritmer, som vi kommer att gå in mer i detalj på nedan, kan textanalysprogramvara utföra saker som sentimentanalys för att kategorisera ostrukturerad text efter åsiktspolarisering (positiv, negativ, neutral, och vidare).

Att prova den här förtränade känsloklassificatorn för att förstå hur klassificeringsalgoritmer fungerar i praktiken, och läs sedan vidare för att lära dig mer om olika typer.

De fem bästa klassificeringsalgoritmerna inom maskininlärning

Studien av klassificering inom statistiken är omfattande och det finns flera olika typer av klassificeringsalgoritmer som du kan använda beroende på den datauppsättning som du arbetar med. Nedan följer fem av de vanligaste algoritmerna inom maskininlärning.

Flera olika typer av klassificeringsalgoritmer:

  • Logistic Regression
  • Naive Bayes Classifier
  • K-Nearest Neighbors
  • Decision Tree
    • Random Forest
  • Support Vector Machines

Logistic Regression

Logistic regression is a calculation used to predict a binary outcome: either something happens, or does not. This can be exhibited as Yes/No, Pass/Fail, Alive/Dead, etc.

Independent variables are analyzed to determine the binary outcome with the results falling into one of two categories. The independent variables can be categorical or numeric, but the dependent variable is always categorical. Written like this:

P(Y=1|X) or P(Y=0|X)

It calculates the probability of dependent variable Y, given independent variable X.

This can be used to calculate the probability of a word having a positive or negative connotation (0, 1, or on a scale between). Eller så kan det användas för att avgöra vilket objekt som finns i ett foto (träd, blomma, gräs etc.), där varje objekt ges en sannolikhet mellan 0 och 1.

Naive Bayes Classifier

Naive Bayes beräknar möjligheten om en datapunkt hör till en viss kategori eller inte. I textanalys kan den användas för att kategorisera ord eller fraser som tillhörande en förinställd ”tagg” (klassificering) eller inte. Till exempel:

bild7 2

För att avgöra om en fras ska taggas som ”sport” eller inte måste du beräkna:

Och… sannolikheten för A, om B är sant, är lika med sannolikheten för B, om A är sant, gånger sannolikheten för att A är sant dividerat med sannolikheten för att B är sant.

K-nästa grannar

K-nästa grannar (k-NN) är en algoritm för mönsterigenkänning som använder träningsdatamängder för att hitta de k närmaste släktingarna i framtida exempel.

När k-NN används vid klassificering beräknar man att placera data i kategorin för dess närmaste granne. Om k = 1 skulle den placeras i klassen närmast 1. K klassificeras av en pluralis poll av sina grannar.

Decision Tree

Ett beslutsträd är en övervakad inlärningsalgoritm som är perfekt för klassificeringsproblem, eftersom den kan ordna klasser på en exakt nivå. Den fungerar som ett flödesschema och separerar datapunkterna i två liknande kategorier i taget från ”trädstammen” till ”grenar” och ”blad”, där kategorierna blir mer ändligt lika. Detta skapar kategorier inom kategorier, vilket möjliggör organisk klassificering med begränsad mänsklig övervakning.

För att fortsätta med sportexemplet är detta hur beslutsträdet fungerar:

Ett exempel på ett beslutsträd som delar in olika sporter.

Random Forest

Algoritmen random forest är en utvidgning av beslutsträd, på så sätt att du först konstruerar några-axel verkliga beslutsträd med träningsdata, och sedan passar dina nya data inom ett av träden som en ”random forest”.

Den gör i princip ett genomsnitt av dina data för att ansluta dem till det närmaste trädet på dataskalan. Modeller med slumpmässiga skogar är användbara eftersom de avhjälper beslutsträdens problem med att ”tvinga” datapunkter inom en kategori i onödan.

Stödvektormaskiner

En stödvektormaskin (SVM) använder algoritmer för att träna och klassificera data inom grader av polaritet, vilket tar det till en grad bortom X/Y-förutsägelser.

För en enkel visuell förklaring använder vi två taggar: röd och blå, med två datafunktioner: X och Y, och tränar sedan vår klassificerare för att ge ut en X/Y-koordinat som antingen röd eller blå.

image4 3

SvM:en tilldelar sedan ett hyperplan som bäst separerar taggarna. I två dimensioner är detta helt enkelt en linje. Allt på ena sidan av linjen är rött och allt på andra sidan är blått. I sentimentanalysen skulle detta till exempel vara positivt och negativt.

För att maximera maskininlärningen är det bästa hyperplanet det som har det största avståndet mellan varje tagg:

image3 2

När datamängderna blir mer komplexa kanske det dock inte är möjligt att dra en enda linje för att klassificera data i två läger:

image2 3

Med hjälp av SVM blir förutsägelsen noggrannare ju mer komplexa uppgifterna är. Föreställ dig ovanstående i tre dimensioner, med en Z-axel tillagd, så att det blir en cirkel.

Mappad tillbaka till två dimensioner med det bästa hyperplanet ser det ut så här:

image6 2

SVM möjliggör noggrannare maskininlärning eftersom det är flerdimensionellt.

4 tillämpningar av klassificeringsalgoritmer

Okej, nu förstår vi lite av matematiken bakom klassificering, men vad kan dessa maskininlärningsalgoritmer göra med verkliga data?

  • Sentimentanalys
  • Klassificering av e-postspam
  • Klassificering av dokument
  • Klassificering av bilder

Sentimentanalys

Sentimentanalys är en teknik för maskininlärning av textanalyser som tilldelar känslor (åsikter, känslor eller känslor) till ord i en text eller en hel text på en polaritetsskala av Positiv, Negativ eller Neutral.

Den kan automatiskt läsa igenom tusentals sidor på några minuter eller ständigt övervaka sociala medier efter inlägg om dig. Tweeten nedan, till exempel, om meddelandeappen Slack, skulle analyseras så att alla enskilda uttalanden skulle räknas som positiva. Detta gör det möjligt för företag att följa produktsläpp och marknadsföringskampanjer i realtid för att se hur kunderna reagerar.

image5 3

Med hjälp av avancerade maskininlärningsalgoritmer kan känslighetsanalysmodeller tränas för att läsa av saker som sarkasm och missbrukade eller felstavade ord. När modellerna är korrekt tränade ger de konsekvent korrekta resultat på en bråkdel av den tid det skulle ta för människor.

Dyk ner direkt och prova MonkeyLearns förtränade verktyg för klassificering av känslor. Eller lär dig hur du bygger din egen känsloklassificerare till språket och behoven i ditt företag.

Klassificering av e-postspam

En av de vanligaste användningsområdena för klassificering, som arbetar nonstop och med litet behov av mänsklig interaktion, är klassificering av e-postspam som räddar oss från tråkiga raderingsuppgifter och ibland till och med från kostsamma nätfiskebedrägerier.

E-postapplikationer använder ovanstående algoritmer för att beräkna sannolikheten för att ett e-postmeddelande antingen inte är avsett för mottagaren eller är oönskad skräppost. Med hjälp av klassificeringstekniker för textanalys sorteras skräppost bort från den vanliga inkorgen: kanske är mottagarens namn felstavat eller så används vissa nyckelord för bedrägeri.

Spamklassificerare behöver fortfarande tränas i viss mån, vilket vi alla har upplevt när vi registrerar oss för en e-postlista av något slag som hamnar i skräppostmappen.

Dokumentklassificering

Dokumentklassificering är ordnandet av dokument i kategorier enligt deras innehåll. Detta gjordes tidigare manuellt, som inom biblioteksvetenskapen eller handordnade juridiska akter. Klassificeringsalgoritmer för maskininlärning gör det dock möjligt att utföra detta automatiskt.

Dokumentklassificering skiljer sig från textklassificering genom att hela dokument, snarare än bara ord eller fraser, klassificeras. Detta används i praktiken när man använder sökmotorer på nätet, korsrefererar ämnen i juridiska dokument och söker i hälsovårdsjournaler efter läkemedel och diagnos.

Bildklassificering

Bildklassificering tilldelar tidigare tränade kategorier till en given bild. Dessa kan vara bildens motiv, ett numeriskt värde, ett tema osv. Bildklassificering kan till och med använda bildklassificerare med flera etiketter, som fungerar på samma sätt som textklassificerare med flera etiketter, för att märka en bild av till exempel en bäck i olika etiketter, som ”bäck”, ”vatten”, ”utomhus” etc.

Med hjälp av övervakade inlärningsalgoritmer kan du märka bilder för att träna din modell för lämpliga kategorier. Som med alla modeller för maskininlärning gäller att ju mer du tränar den, desto bättre kommer den att fungera.

Avsluta

Maskinininlärningsklassificering använder algoritmernas matematiskt bevisbara vägledning för att utföra analytiska uppgifter som skulle ta människor hundratals fler timmar att utföra. Och med rätt algoritmer på plats och en korrekt tränad modell presterar klassificeringsprogrammen med en noggrannhet som människor aldrig skulle kunna uppnå.

MonkeyLearn är en plattform för textanalys med dussintals verktyg för att föra din verksamhet framåt med datadrivna insikter. Prova de förtränade klassificeringsverktygen nedan för att se hur det fungerar:

  • Sentiment Classifier
  • Intent and Email Classifier
  • Survey Feedback Classifier

MonkeyLearn går långt utöver klassificering med textanalysverktyg som ger dig de dataresultat som ditt företag behöver. Begär en demo för att få veta mer om MonkeyLearns avancerade textanalysverktyg.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *