Menu Fermer

Les algorithmes de classification dans l’apprentissage automatique : Comment ils fonctionnent

La classification est l’un des concepts les plus fondamentaux de la science des données. Les algorithmes de classification sont des calculs prédictifs utilisés pour affecter des données à des catégories prédéfinies en analysant des ensembles de données d’apprentissage.

  • Qu’est-ce que la classification ?
  • Les 5 principaux algorithmes de classification en apprentissage automatique
  • 4 applications des algorithmes de classification

Qu’est-ce que la classification ?

La classification est le processus de reconnaissance, de compréhension et de regroupement des idées et des objets dans des catégories prédéfinies ou des « sous-populations ». En utilisant des ensembles de données d’entraînement pré-catégorisés, les programmes d’apprentissage automatique utilisent une variété d’algorithmes pour classer les ensembles de données futurs dans des catégories.

Les algorithmes de classification dans l’apprentissage automatique utilisent les données d’entraînement d’entrée pour prédire la probabilité que les données ultérieures entrent dans l’une des catégories prédéterminées. L’une des utilisations les plus courantes de la classification est le filtrage des e-mails en « spam » ou « non-spam ».

En bref, la classification est une forme de « reconnaissance des formes », les algorithmes de classification étant appliqués aux données de formation pour trouver la même forme (mots ou sentiments similaires, séquences de chiffres, etc.) dans les ensembles de données ultérieurs.

Utilisant des algorithmes de classification, que nous détaillerons ci-dessous, les logiciels d’analyse de texte peuvent effectuer des choses comme l’analyse des sentiments pour catégoriser le texte non structuré par polarité d’opinion (positif, négatif, neutre et au-delà).

Essayez ce classificateur de sentiments pré-entraîné pour comprendre comment les algorithmes de classification fonctionnent en pratique, puis lisez la suite pour en savoir plus sur les différents types.

Plus de 5 algorithmes de classification en apprentissage automatique

L’étude de la classification en statistique est vaste, et il existe plusieurs types d’algorithmes de classification que vous pouvez utiliser en fonction du jeu de données avec lequel vous travaillez. Vous trouverez ci-dessous cinq des algorithmes les plus courants en apprentissage automatique.

Divers types d’algorithmes de classification :

  • Logistic Regression
  • Naive Bayes Classifier
  • K-Nearest Neighbors
  • Decision Tree
    • Random Forest
  • Support Vector Machines

Logistic Regression

Logistic regression is a calculation used to predict a binary outcome: either something happens, or does not. This can be exhibited as Yes/No, Pass/Fail, Alive/Dead, etc.

Independent variables are analyzed to determine the binary outcome with the results falling into one of two categories. The independent variables can be categorical or numeric, but the dependent variable is always categorical. Written like this:

P(Y=1|X) or P(Y=0|X)

It calculates the probability of dependent variable Y, given independent variable X.

This can be used to calculate the probability of a word having a positive or negative connotation (0, 1, or on a scale between). Ou encore, il peut être utilisé pour déterminer l’objet contenu dans une photo (arbre, fleur, herbe, etc.), chaque objet se voyant attribuer une probabilité comprise entre 0 et 1.

Classificateur Naive Bayes

Naive Bayes calcule la possibilité qu’un point de données appartienne ou non à une certaine catégorie. Dans l’analyse de texte, il peut être utilisé pour classer des mots ou des phrases comme appartenant à une « étiquette » prédéfinie (classification) ou non. Par exemple :

image7 2

Pour décider si une phrase doit être étiquetée  » sports  » ou non, vous devez calculer :

Ou… la probabilité de A, si B est vrai, est égale à la probabilité de B, si A est vrai, fois la probabilité de A étant vrai, divisée par la probabilité de B étant vrai.

K-voisins les plus proches

K-voisins les plus proches (k-NN) est un algorithme de reconnaissance des formes qui utilise des ensembles de données d’entraînement pour trouver les k plus proches parents dans les exemples futurs.

Lorsque k-NN est utilisé dans la classification, vous calculez pour placer les données dans la catégorie de leur plus proche voisin. Si k = 1, alors il serait placé dans la classe la plus proche de 1. K est classé par une pluralité poll de ses voisins.

Arbre de décision

Un arbre de décision est un algorithme d’apprentissage supervisé qui est parfait pour les problèmes de classification, car il est capable d’ordonner les classes à un niveau précis. Il fonctionne comme un organigramme, séparant les points de données en deux catégories similaires à la fois, du « tronc de l’arbre » aux « branches », puis aux « feuilles », où les catégories deviennent plus finement similaires. Cela crée des catégories à l’intérieur des catégories, permettant une classification organique avec une supervision humaine limitée.

Pour continuer avec l’exemple du sport, voici comment fonctionne l’arbre de décision :

Un exemple d'arbre de décision divisant différents sports.

Forêt aléatoire

L’algorithme de la forêt aléatoire est une expansion de l’arbre de décision, en ce sens que, vous construisez d’abord des arbres de décision du monde réel à quelques axes avec des données d’entraînement, puis vous ajustez vos nouvelles données dans l’un des arbres en tant que « forêt aléatoire ».

Elle, essentiellement, fait la moyenne de vos données pour les connecter à l’arbre le plus proche sur l’échelle des données. Les modèles de forêt aléatoire sont utiles car ils remédient au problème de l’arbre de décision qui consiste à « forcer » inutilement les points de données dans une catégorie.

Machines à vecteurs de support

Une machine à vecteurs de support (SVM) utilise des algorithmes pour former et classer les données dans des degrés de polarité, en les amenant à un degré au-delà de la prédiction X/Y.

Pour une explication visuelle simple, nous allons utiliser deux balises : rouge et bleu, avec deux caractéristiques de données : X et Y, puis entraînons notre classificateur à sortir une coordonnée X/Y comme étant rouge ou bleue.

image4 3

Le SVM attribue ensuite un hyperplan qui sépare au mieux les balises. En deux dimensions, il s’agit simplement d’une ligne. Tout ce qui se trouve d’un côté de la ligne est rouge et tout ce qui se trouve de l’autre côté est bleu. Dans l’analyse du sentiment, par exemple, ce serait positif et négatif.

Afin de maximiser l’apprentissage automatique, le meilleur hyperplan est celui qui présente la plus grande distance entre chaque balise :

image3 2

Cependant, à mesure que les ensembles de données deviennent plus complexes, il peut être impossible de tracer une seule ligne pour classer les données en deux camps :

image2 3

En utilisant le SVM, plus les données sont complexes, plus le prédicteur sera précis. Imaginez ce qui précède en trois dimensions, avec un axe Z ajouté, de sorte que cela devient un cercle.

Remis en deux dimensions avec le meilleur hyperplan, cela ressemble à ceci :

image6 2

SVM permet un apprentissage automatique plus précis car il est multidimensionnel.

4 Applications des algorithmes de classification

Ok, donc maintenant nous comprenons un peu les mathématiques derrière la classification, mais que peuvent faire ces algorithmes d’apprentissage automatique avec des données du monde réel ?

  • Analyse des sentiments
  • Catégorisation des pourriels
  • Catégorisation des documents
  • Catégorisation des images

Analyse des sentiments

L’analyse des sentiments est une technique d’apprentissage automatique d’analyse de texte qui attribue un sentiment (opinion, sentiment ou émotion) aux mots d’un texte, ou d’un texte entier, sur une échelle de polarité positive, négative ou neutre.

Il peut lire automatiquement des milliers de pages en quelques minutes ou surveiller constamment les médias sociaux à la recherche de messages vous concernant. Le tweet ci-dessous, par exemple, sur l’application de messagerie, Slack, serait analysé pour tirer toutes les déclarations individuelles comme Positives. Cela permet aux entreprises de suivre les sorties de produits et les campagnes marketing en temps réel, pour voir comment les clients réagissent.

image5 3

Utilisant des algorithmes d’apprentissage automatique avancés, les modèles d’analyse des sentiments peuvent être formés pour lire des choses comme le sarcasme et les mots mal utilisés ou mal orthographiés. Une fois correctement entraînés, les modèles produisent des résultats constamment précis en une fraction du temps qu’il faudrait aux humains.

Partez directement à l’assaut pour essayer l’outil de classification des sentiments pré-entraîné de MonkeyLearn. Ou apprenez à construire votre propre classificateur de sentiments en fonction de la langue et des besoins de votre entreprise.

Catégorisation des spams de courrier électronique

L’une des utilisations les plus courantes de la classification, travaillant sans arrêt et avec peu d’interaction humaine, la classification des spams de courrier électronique nous évite des tâches de suppression fastidieuses et parfois même des escroqueries par hameçonnage coûteuses.

Les applications de courrier électronique utilisent les algorithmes ci-dessus pour calculer la probabilité qu’un courriel ne soit pas destiné au destinataire ou qu’il s’agisse d’un spam indésirable. En utilisant des techniques de classification par analyse de texte, les courriels de spam sont éliminés de la boîte de réception ordinaire : peut-être que le nom d’un destinataire est mal orthographié, ou que certains mots-clés d’escroquerie sont utilisés.

Les classificateurs de spam doivent tout de même être formés dans une certaine mesure, comme nous l’avons tous expérimenté en nous inscrivant à une liste de courriels quelconque qui finit dans le dossier de spam.

Classification des documents

La classification des documents est le classement des documents dans des catégories en fonction de leur contenu. Cela se faisait auparavant manuellement, comme dans les sciences de la bibliothèque ou les dossiers juridiques classés à la main. Les algorithmes de classification par apprentissage automatique, cependant, permettent de l’effectuer automatiquement.

La classification des documents diffère de la classification des textes, en ce sens que ce sont des documents entiers, et non seulement des mots ou des phrases, qui sont classés. Ceci est mis en pratique lors de l’utilisation de moteurs de recherche en ligne, du recoupement de sujets dans des documents juridiques et de la recherche de dossiers médicaux par médicament et par diagnostic.

Classification d’images

La classification d’images attribue des catégories préalablement formées à une image donnée. Celles-ci peuvent être le sujet de l’image, une valeur numérique, un thème, etc. La classification d’images peut même utiliser des classificateurs d’images à étiquettes multiples, qui fonctionnent de manière similaire aux classificateurs de texte à étiquettes multiples, pour étiqueter une image d’un cours d’eau, par exemple, en différentes étiquettes, comme  » cours d’eau « ,  » eau « ,  » extérieur « , etc.

En utilisant des algorithmes d’apprentissage supervisé, vous pouvez étiqueter les images pour entraîner votre modèle pour les catégories appropriées. Comme avec tous les modèles d’apprentissage automatique, plus vous l’entraînez, mieux il fonctionnera.

Wrap Up

La classification par apprentissage automatique utilise le guide mathématiquement prouvable des algorithmes pour effectuer des tâches analytiques qui prendraient des centaines d’heures supplémentaires aux humains. Et avec les algorithmes appropriés en place et un modèle correctement formé, les programmes de classification fonctionnent à un niveau de précision que les humains ne pourraient jamais atteindre.

MonkeyLearn est une plateforme d’analyse de texte dotée de dizaines d’outils pour faire progresser votre entreprise grâce à des informations fondées sur les données. Essayez les outils de classification pré-entraînés ci-dessous pour voir comment cela fonctionne :

  • Sentiment Classifier
  • Intention et Email Classifier
  • Survey Feedback Classifier

MonkeyLearn va bien au-delà de la classification avec des outils d’analyse de texte qui vous donneront les résultats de données dont votre entreprise a besoin. Demandez une démo pour en savoir plus sur les outils avancés d’analyse de texte de MonkeyLearn.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *