Menü Schließen

Klassifizierungsalgorithmen im maschinellen Lernen: Wie sie funktionieren

Die Klassifizierung ist eines der grundlegendsten Konzepte der Datenwissenschaft. Klassifizierungsalgorithmen sind prädiktive Berechnungen, die dazu dienen, Daten durch die Analyse von Trainingsdatensätzen vorgegebenen Kategorien zuzuordnen.

  • Was ist Klassifizierung?
  • Top 5 Klassifizierungsalgorithmen im maschinellen Lernen
  • 4 Anwendungen von Klassifizierungsalgorithmen

Was ist Klassifizierung?

Klassifizierung ist der Prozess des Erkennens, Verstehens und Gruppierens von Ideen und Objekten in voreingestellte Kategorien oder „Teilpopulationen“. Unter Verwendung vorkategorisierter Trainingsdatensätze verwenden Programme für maschinelles Lernen eine Vielzahl von Algorithmen, um künftige Datensätze in Kategorien zu klassifizieren.

Klassifizierungsalgorithmen für maschinelles Lernen verwenden eingegebene Trainingsdaten, um die Wahrscheinlichkeit vorherzusagen, dass nachfolgende Daten in eine der vorgegebenen Kategorien fallen werden. Eine der häufigsten Anwendungen der Klassifizierung ist das Filtern von E-Mails in „Spam“ oder „Nicht-Spam“.

Kurz gesagt ist die Klassifizierung eine Form der „Mustererkennung“, bei der Klassifizierungsalgorithmen auf die Trainingsdaten angewandt werden, um dieselben Muster (ähnliche Wörter oder Stimmungen, Zahlenfolgen usw.) in zukünftigen Datensätzen zu finden.

Mit Hilfe von Klassifizierungsalgorithmen, auf die wir weiter unten näher eingehen, kann Textanalysesoftware Dinge wie die Stimmungsanalyse durchführen, um unstrukturierten Text nach der Polarität der Meinung (positiv, negativ, neutral und darüber hinaus) zu kategorisieren.

Testen Sie diesen vortrainierten Sentiment-Klassifikator, um zu verstehen, wie Klassifizierungsalgorithmen in der Praxis funktionieren, und lesen Sie dann weiter, um mehr über die verschiedenen Typen zu erfahren.

Top 5 Klassifizierungsalgorithmen im maschinellen Lernen

Das Studium der Klassifizierung in der Statistik ist sehr umfangreich, und es gibt verschiedene Arten von Klassifizierungsalgorithmen, die Sie je nach dem Datensatz, mit dem Sie arbeiten, verwenden können. Im Folgenden werden fünf der gebräuchlichsten Algorithmen des maschinellen Lernens vorgestellt.

Vielfältige Arten von Klassifizierungsalgorithmen:

  • Logistic Regression
  • Naive Bayes Classifier
  • K-Nearest Neighbors
  • Decision Tree
    • Random Forest
  • Support Vector Machines

Logistic Regression

Logistic regression is a calculation used to predict a binary outcome: either something happens, or does not. This can be exhibited as Yes/No, Pass/Fail, Alive/Dead, etc.

Independent variables are analyzed to determine the binary outcome with the results falling into one of two categories. The independent variables can be categorical or numeric, but the dependent variable is always categorical. Written like this:

P(Y=1|X) or P(Y=0|X)

It calculates the probability of dependent variable Y, given independent variable X.

This can be used to calculate the probability of a word having a positive or negative connotation (0, 1, or on a scale between). Oder es kann verwendet werden, um das auf einem Foto enthaltene Objekt zu bestimmen (Baum, Blume, Gras usw.), wobei jedem Objekt eine Wahrscheinlichkeit zwischen 0 und 1 zugeordnet wird.

Naive Bayes Classifier

Naive Bayes berechnet die Möglichkeit, ob ein Datenpunkt zu einer bestimmten Kategorie gehört oder nicht. In der Textanalyse kann es verwendet werden, um Wörter oder Sätze als zu einem vorgegebenen „Tag“ (Klassifizierung) gehörend oder nicht gehörend zu kategorisieren. Beispiel:

Bild7 2

Um zu entscheiden, ob ein Satz als „Sport“ getaggt werden sollte oder nicht, müssen Sie berechnen:

Oder… die Wahrscheinlichkeit, dass A wahr ist, wenn B wahr ist, ist gleich der Wahrscheinlichkeit, dass B wahr ist, wenn A wahr ist, mal der Wahrscheinlichkeit, dass A wahr ist, geteilt durch die Wahrscheinlichkeit, dass B wahr ist.

K-Nächste Nachbarn

K-Nächste Nachbarn (k-NN) ist ein Algorithmus zur Mustererkennung, der Trainingsdatensätze verwendet, um die k nächsten Verwandten in zukünftigen Beispielen zu finden.

Wenn k-NN bei der Klassifizierung verwendet wird, berechnet man, dass die Daten in die Kategorie ihres nächsten Nachbarn eingeordnet werden. Wenn k = 1 ist, werden die Daten in die nächstgelegene Klasse eingeordnet. K wird durch eine Mehrfachabfrage seiner Nachbarn klassifiziert.

Entscheidungsbaum

Ein Entscheidungsbaum ist ein überwachter Lernalgorithmus, der sich perfekt für Klassifizierungsprobleme eignet, da er in der Lage ist, die Klassen auf einer präzisen Ebene zu ordnen. Er funktioniert wie ein Flussdiagramm, bei dem Datenpunkte in jeweils zwei ähnliche Kategorien unterteilt werden, vom „Baumstamm“ über „Äste“ bis hin zu „Blättern“, wo die Kategorien immer ähnlicher werden. Auf diese Weise entstehen Kategorien innerhalb von Kategorien, was eine organische Klassifizierung mit begrenzter menschlicher Überwachung ermöglicht.

Um mit dem Sportbeispiel fortzufahren, funktioniert der Entscheidungsbaum folgendermaßen:

Ein Beispiel für einen Entscheidungsbaum, der verschiedene Sportarten unterteilt.

Random Forest

Der Random-Forest-Algorithmus ist eine Erweiterung des Entscheidungsbaums, bei dem man zunächst einige reale Entscheidungsbäume mit Trainingsdaten konstruiert und dann die neuen Daten in einen der Bäume als „Random Forest“ einpasst.

Dabei werden Ihre Daten im Wesentlichen gemittelt, um sie mit dem nächstgelegenen Baum auf der Datenskala zu verbinden. Random-Forest-Modelle sind hilfreich, da sie das Problem des Entscheidungsbaums beheben, Datenpunkte unnötigerweise in eine Kategorie zu „zwingen“.

Support Vector Machines

Eine Support Vector Machine (SVM) verwendet Algorithmen zum Trainieren und Klassifizieren von Daten innerhalb von Polaritätsgraden und geht damit über die X/Y-Vorhersage hinaus.

Für eine einfache visuelle Erklärung verwenden wir zwei Tags: rot und blau, mit zwei Datenmerkmalen: X und Y, und trainieren dann unseren Klassifikator, um eine X/Y-Koordinate entweder als rot oder blau auszugeben.

Bild4 3

Die SVM weist dann eine Hyperebene zu, die die Tags am besten trennt. In zwei Dimensionen ist dies einfach eine Linie. Alles auf einer Seite der Linie ist rot und alles auf der anderen Seite ist blau. Bei der Stimmungsanalyse wäre dies beispielsweise positiv und negativ.

Um das maschinelle Lernen zu maximieren, ist die beste Hyperebene diejenige mit dem größten Abstand zwischen den einzelnen Tags:

Bild3 2

Wenn die Datensätze jedoch komplexer werden, ist es unter Umständen nicht möglich, eine einzige Linie zu ziehen, um die Daten in zwei Lager zu klassifizieren:

Bild2 3

Je komplexer die Daten sind, desto genauer wird der Prädiktor bei der SVM. Stellen Sie sich das obige Bild in drei Dimensionen vor, mit einer zusätzlichen Z-Achse, so dass es zu einem Kreis wird.

Zurückgeführt auf zwei Dimensionen mit der besten Hyperebene sieht es so aus:

Bild6 2

SVM ermöglicht ein genaueres maschinelles Lernen, weil es mehrdimensional ist.

4 Anwendungen von Klassifizierungsalgorithmen

Okay, jetzt verstehen wir ein wenig von der Mathematik hinter der Klassifizierung, aber was können diese maschinellen Lernalgorithmen mit realen Daten tun?

  • Sentiment Analysis
  • Email Spam Classification
  • Document Classification
  • Image Classification

Sentiment Analysis

Sentiment Analysis ist eine maschinelle Textanalysetechnik, die Wörtern innerhalb eines Textes oder eines ganzen Textes auf einer Polaritätsskala von Positiv, Negativ oder Neutral eine Stimmung (Meinung, Gefühl oder Emotion) zuordnet.

Es kann automatisch Tausende von Seiten in wenigen Minuten durchlesen oder die sozialen Medien ständig auf Beiträge über Sie überwachen. Der unten stehende Tweet über die Messaging-App Slack würde zum Beispiel analysiert, um alle einzelnen Aussagen als positiv zu bewerten. Auf diese Weise können Unternehmen Produktveröffentlichungen und Marketingkampagnen in Echtzeit verfolgen, um zu sehen, wie die Kunden reagieren.

image5 3

Mithilfe fortschrittlicher Algorithmen für maschinelles Lernen können Stimmungsanalysemodelle darauf trainiert werden, Dinge wie Sarkasmus und falsch verwendete oder falsch geschriebene Wörter zu erkennen. Einmal richtig trainiert, liefern die Modelle durchweg genaue Ergebnisse in einem Bruchteil der Zeit, die ein Mensch dafür benötigen würde.

Testen Sie gleich das vortrainierte Sentiment-Klassifizierungstool von MonkeyLearn. Oder lernen Sie, wie Sie Ihren eigenen Sentiment-Klassifikator für die Sprache und die Bedürfnisse Ihres Unternehmens erstellen können.

E-Mail-Spam-Klassifizierung

Eine der häufigsten Anwendungen der Klassifizierung, die ohne Unterbrechung und mit wenig menschlicher Interaktion arbeitet, erspart uns lästige Löschaufgaben und manchmal sogar kostspielige Phishing-Betrügereien.

E-Mail-Anwendungen verwenden die oben genannten Algorithmen, um die Wahrscheinlichkeit zu berechnen, dass eine E-Mail entweder nicht für den Empfänger bestimmt oder unerwünschter Spam ist. Mithilfe von Textanalyse-Klassifizierungsverfahren werden Spam-E-Mails aus dem regulären Posteingang aussortiert: Vielleicht ist der Name des Empfängers falsch geschrieben, oder es werden bestimmte betrügerische Schlüsselwörter verwendet.

Spam-Klassifikatoren müssen bis zu einem gewissen Grad noch trainiert werden, wie wir alle schon erfahren haben, wenn wir uns in eine E-Mail-Liste eintragen, die dann im Spam-Ordner landet.

Dokumentenklassifizierung

Dokumentenklassifizierung ist die Einordnung von Dokumenten in Kategorien nach ihrem Inhalt. Früher geschah dies manuell, wie in den Bibliothekswissenschaften oder bei handgeordneten Rechtsakten. Mit Hilfe von Klassifizierungsalgorithmen des maschinellen Lernens lässt sich dies jedoch automatisch durchführen.

Die Dokumentenklassifizierung unterscheidet sich von der Textklassifizierung dadurch, dass ganze Dokumente und nicht nur Wörter oder Phrasen klassifiziert werden. Dies wird in der Praxis bei der Nutzung von Online-Suchmaschinen, bei Querverweisen auf Themen in Rechtsdokumenten und bei der Suche in Krankenakten nach Medikamenten und Diagnosen eingesetzt.

Bildklassifizierung

Bildklassifizierung ordnet einem gegebenen Bild zuvor trainierte Kategorien zu. Dabei kann es sich um den Gegenstand des Bildes, einen numerischen Wert, ein Thema usw. handeln. Bei der Bildklassifizierung können sogar Multilabel-Bildklassifizierer verwendet werden, die ähnlich wie Multilabel-Textklassifizierer funktionieren, um z. B. ein Bild eines Baches mit verschiedenen Etiketten wie „Bach“, „Wasser“, „im Freien“ usw. zu versehen.

Mit Algorithmen des überwachten Lernens können Sie Bilder mit Etiketten versehen, um Ihr Modell für die entsprechenden Kategorien zu trainieren. Wie bei allen Modellen des maschinellen Lernens gilt auch hier: Je mehr Sie es trainieren, desto besser wird es funktionieren.

Zusammenfassung

Die Klassifizierung durch maschinelles Lernen nutzt die mathematisch nachweisbare Anleitung von Algorithmen, um analytische Aufgaben zu erfüllen, für die Menschen Hunderte von Stunden mehr benötigen würden. Mit den richtigen Algorithmen und einem gut trainierten Modell erreichen Klassifizierungsprogramme eine Genauigkeit, die Menschen niemals erreichen könnten.

MonkeyLearn ist eine Textanalyseplattform mit Dutzenden von Tools, die Ihr Unternehmen mit datengestützten Erkenntnissen voranbringen. Probieren Sie die folgenden vortrainierten Klassifizierungstools aus, um zu sehen, wie es funktioniert:

  • Sentiment Classifier
  • Intent and Email Classifier
  • Survey Feedback Classifier

MonkeyLearn geht weit über die Klassifizierung hinaus und bietet Textanalysetools, die Ihnen die Datenergebnisse liefern, die Ihr Unternehmen benötigt. Fordern Sie eine Demo an, um mehr über die fortschrittlichen Textanalysetools von MonkeyLearn zu erfahren.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.