Menu Sluiten

Classificatie-algoritmen in Machine Learning: Hoe ze werken

Classificatie is een van de meest fundamentele concepten in data science. Classificatiealgoritmen zijn voorspellende berekeningen die worden gebruikt om gegevens aan vooraf ingestelde categorieën toe te wijzen door sets van trainingsgegevens te analyseren.

  • Wat is classificatie?
  • Top 5 classificatiealgoritmen in Machine Learning
  • 4 toepassingen van classificatiealgoritmen

Wat is classificatie?

Classificatie is het proces van het herkennen, begrijpen en groeperen van ideeën en objecten in vooraf ingestelde categorieën of “subpopulaties”. Met behulp van vooraf gecategoriseerde trainingsdatasets gebruiken programma’s voor machinaal leren verschillende algoritmen om toekomstige datasets in categorieën in te delen.

Classificatiealgoritmen in machinaal leren gebruiken ingevoerde trainingsgegevens om de waarschijnlijkheid te voorspellen dat latere gegevens in een van de vooraf bepaalde categorieën zullen vallen. Een van de meest voorkomende toepassingen van classificatie is het filteren van e-mails in “spam” of “non-spam”.

In het kort is classificatie een vorm van “patroonherkenning”, waarbij classificatiealgoritmen worden toegepast op de trainingsgegevens om hetzelfde patroon te vinden (soortgelijke woorden of sentimenten, cijferreeksen, enz.) in toekomstige gegevenssets.

Met behulp van classificatiealgoritmen, waarover we hieronder meer in detail zullen treden, kan tekstanalysesoftware dingen uitvoeren zoals sentimentanalyse om ongestructureerde tekst te categoriseren op polariteit van mening (positief, negatief, neutraal, en verder).

Probeer deze voorgetrainde sentimentclassifier om te begrijpen hoe classificatiealgoritmen in de praktijk werken, en lees dan verder om meer te leren over de verschillende typen.

Top 5 Classificatiealgoritmen in Machine Learning

De studie van classificatie in de statistiek is uitgebreid, en er zijn verschillende typen classificatiealgoritmen die u kunt gebruiken, afhankelijk van de dataset waar u mee werkt. Hieronder staan vijf van de meest voorkomende algoritmen in machine learning.

Verschillende soorten classificatiealgoritmen:

  • Logistic Regression
  • Naive Bayes Classifier
  • K-Nearest Neighbors
  • Decision Tree
    • Random Forest
  • Support Vector Machines

Logistic Regression

Logistic regression is a calculation used to predict a binary outcome: either something happens, or does not. This can be exhibited as Yes/No, Pass/Fail, Alive/Dead, etc.

Independent variables are analyzed to determine the binary outcome with the results falling into one of two categories. The independent variables can be categorical or numeric, but the dependent variable is always categorical. Written like this:

P(Y=1|X) or P(Y=0|X)

It calculates the probability of dependent variable Y, given independent variable X.

This can be used to calculate the probability of a word having a positive or negative connotation (0, 1, or on a scale between). Of het kan worden gebruikt om te bepalen welk object op een foto staat (boom, bloem, gras, enz.), waarbij elk object een waarschijnlijkheid tussen 0 en 1 krijgt.

Naive Bayes Classifier

Naive Bayes berekent de mogelijkheid of een gegevenspunt binnen een bepaalde categorie valt of niet. In tekstanalyse kan het worden gebruikt om woorden of zinsdelen te categoriseren als behorend tot een vooraf ingestelde “tag” (classificatie) of niet. Bijvoorbeeld:

afbeelding7 2

Om te beslissen of een woordgroep al dan niet als “sport” moet worden getagd, moet u berekenen:

Of… de waarschijnlijkheid van A, als B waar is, is gelijk aan de waarschijnlijkheid van B, als A waar is, maal de waarschijnlijkheid dat A waar is, gedeeld door de waarschijnlijkheid dat B waar is.

K-nearest Neighbors

K-nearest neighbors (k-NN) is een patroonherkenningsalgoritme dat gebruik maakt van trainingsdatasets om de k dichtstbijzijnde verwanten in toekomstige voorbeelden te vinden.

Wanneer k-NN wordt gebruikt bij classificatie, bereken je om gegevens in de categorie van de dichtstbijzijnde buur te plaatsen. Als k = 1, dan wordt het geplaatst in de klasse die het dichtst bij 1 ligt. K wordt geclassificeerd door een meervoudige peiling van zijn buren.

Decision Tree

Een beslissingsboom is een supervised learning-algoritme dat perfect is voor classificatieproblemen, omdat het in staat is klassen op een nauwkeurig niveau te ordenen. Het werkt als een stroomdiagram, waarbij gegevenspunten in twee gelijksoortige categorieën worden verdeeld, van de “stam van de boom” naar “takken”, naar “bladeren”, waar de categorieën meer eindig op elkaar gaan lijken. Dit creëert categorieën binnen categorieën, waardoor organische classificatie met beperkte menselijke supervisie mogelijk is.

Om verder te gaan met het sportvoorbeeld, dit is hoe de beslissingsboom werkt:

Een voorbeeld van een beslissingsboom die verschillende sporten indeelt.

Random Forest

Het random forest-algoritme is een uitbreiding van de beslisboom, in die zin dat je eerst beslissingsbomen met een aantal assen in de echte wereld construeert met trainingsgegevens, en vervolgens je nieuwe gegevens inpast in een van de bomen als een “random forest”.

Het maakt in wezen een gemiddelde van uw gegevens om deze te verbinden met de dichtstbijzijnde boom op de dataschaal. Random forest-modellen zijn nuttig omdat zij een oplossing bieden voor het probleem van de beslisboom, namelijk het onnodig “forceren” van gegevenspunten binnen een categorie.

Support Vector Machines

Een support vector machine (SVM) gebruikt algoritmen om gegevens te trainen en te classificeren binnen graden van polariteit, en gaat daarmee een graad verder dan X/Y-voorspelling.

Voor een eenvoudige visuele uitleg gebruiken we twee tags: rood en blauw, met twee gegevenskenmerken: X en Y, dan trainen we onze classifier om een X/Y-coördinaat als rood of blauw te laten uitkomen.

image4 3

De SVM wijst dan een hypervlak toe dat de tags het beste scheidt. In twee dimensies is dit gewoon een lijn. Alles aan de ene kant van de lijn is rood en alles aan de andere kant is blauw. Bij sentimentanalyse zou dit bijvoorbeeld positief en negatief zijn.

Om machine learning te maximaliseren, is het beste hypervlak dat met de grootste afstand tussen elke tag:

image3 2

Naarmate datasets complexer worden, kan het echter onmogelijk zijn om één enkele lijn te trekken om de gegevens in twee kampen te classificeren:

image2 3

Bij gebruik van SVM wordt de voorspeller nauwkeuriger naarmate de gegevens complexer worden. Stel je het bovenstaande voor in drie dimensies, met een Z-as toegevoegd, zodat het een cirkel wordt.

Teruggeplaatst naar twee dimensies met het beste hypervlak, ziet het er zo uit:

image6 2

SVM maakt nauwkeuriger machine learning mogelijk omdat het multidimensionaal is.

4 toepassingen van classificatiealgoritmen

Ok, we begrijpen nu een beetje van de wiskunde achter classificatie, maar wat kunnen deze machine learning-algoritmen doen met gegevens uit de echte wereld?

  • Sentimentanalyse
  • Email Spam Classificatie
  • Document Classificatie
  • Image Classificatie

Sentimentanalyse

Sentimentanalyse is een machine learning tekstanalysetechniek die sentiment (mening, gevoel, of emotie) toekent aan woorden binnen een tekst, of een hele tekst, op een polariteitsschaal van Positief, Negatief, of Neutraal.

Het kan automatisch duizenden pagina’s in enkele minuten doorlezen of voortdurend sociale media in de gaten houden voor berichten over u. De onderstaande tweet, bijvoorbeeld, over de messaging app, Slack, zou worden geanalyseerd om alle individuele uitspraken als Positief te trekken. Zo kunnen bedrijven productreleases en marketingcampagnes in realtime volgen, om te zien hoe klanten reageren.

image5 3

Met behulp van geavanceerde algoritmen voor machinaal leren kunnen sentimentanalysemodellen worden getraind om te lezen op zaken als sarcasme en verkeerd gebruikte of verkeerd gespelde woorden. Eenmaal goed getraind, produceren modellen consistent accurate resultaten in een fractie van de tijd die mensen nodig zouden hebben.

Doe direct mee en probeer MonkeyLearn’s vooraf getrainde sentiment classificatie tool. Of leer hoe u uw eigen sentimentclassificatie kunt bouwen op basis van de taal en behoeften van uw bedrijf.

Email spamclassificatie

Eén van de meest voorkomende toepassingen van classificatie, non-stop werkend en met weinig behoefte aan menselijke interactie, bespaart e-mail spamclassificatie ons vervelende verwijdertaken en soms zelfs kostbare phishing scams.

Emailtoepassingen gebruiken de bovenstaande algoritmen om de waarschijnlijkheid te berekenen dat een e-mail ofwel niet voor de ontvanger is bedoeld of ongewenste spam is. Met behulp van classificatietechnieken op basis van tekstanalyse worden spammails uit de gewone inbox geweerd: misschien is de naam van een ontvanger verkeerd gespeld, of zijn bepaalde scamming-keywords gebruikt.

Spam classifiers moeten nog wel enigszins worden getraind, zoals we allemaal wel eens hebben ervaren bij het aanmelden voor een of andere e-maillijst die in de spammap terechtkomt.

Documentclassificatie

Documentclassificatie is het ordenen van documenten in categorieën op basis van hun inhoud. Vroeger gebeurde dit handmatig, zoals in de bibliotheekwetenschappen of bij met de hand geordende juridische dossiers. Met machine learning classificatiealgoritmen kan dit echter automatisch worden uitgevoerd.

Documentclassificatie verschilt van tekstclassificatie, in die zin dat hele documenten worden geclassificeerd, in plaats van alleen woorden of zinsdelen. Dit wordt in de praktijk gebracht bij het gebruik van zoekmachines op internet, bij kruisverwijzingen naar onderwerpen in juridische documenten en bij het zoeken in medische dossiers op medicijn en diagnose.

Afbeeldingclassificatie

Afbeeldingclassificatie wijst eerder getrainde categorieën toe aan een gegeven afbeelding. Dit kan het onderwerp van de afbeelding zijn, een numerieke waarde, een thema, enzovoort. Bij beeldclassificatie kan zelfs gebruik worden gemaakt van multi-label beeldclassifiers, die net zo werken als multi-label tekstclassifiers, om bijvoorbeeld een afbeelding van een beekje te labelen met verschillende labels, zoals “beekje”, “water”, “buiten”, enz.

Door gebruik te maken van algoritmen voor gesuperviseerd leren, kunt u afbeeldingen labelen om uw model te trainen voor de juiste categorieën. Zoals bij alle machine learning-modellen geldt: hoe meer je het traint, hoe beter het zal werken.

Wrap Up

Machine learning-classificatie maakt gebruik van de wiskundig aantoonbare gids van algoritmen om analytische taken uit te voeren waar mensen nog honderden uren voor nodig zouden hebben. En met de juiste algoritmen en een goed getraind model kunnen classificatieprogramma’s een nauwkeurigheid bereiken die mensen nooit zouden kunnen bereiken.

MonkeyLearn is een platform voor tekstanalyse met tientallen hulpmiddelen om uw bedrijf vooruit te helpen met op gegevens gebaseerde inzichten. Probeer de vooraf getrainde classificatietools hieronder om te zien hoe het werkt:

  • Sentiment Classifier
  • Intent and Email Classifier
  • Survey Feedback Classifier

MonkeyLearn gaat veel verder dan classificatie met tekstanalysetools die u de dataresultaten geven die uw bedrijf nodig heeft. Vraag een demo aan om meer te leren over de geavanceerde tekstanalyse tools van MonkeyLearn.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *