Menu Chiudi

Algoritmi di classificazione nell’apprendimento automatico: Come funzionano

La classificazione è uno dei concetti fondamentali nella scienza dei dati. Gli algoritmi di classificazione sono calcoli predittivi usati per assegnare i dati a categorie predefinite analizzando insiemi di dati di allenamento.

  • Che cos’è la classificazione?
  • Top 5 algoritmi di classificazione nel Machine Learning
  • 4 applicazioni degli algoritmi di classificazione

Che cos’è la classificazione?

La classificazione è il processo di riconoscere, comprendere e raggruppare idee e oggetti in categorie predefinite o “sottopopolazioni”. Usando serie di dati di addestramento pre-categorizzati, i programmi di apprendimento automatico usano una varietà di algoritmi per classificare future serie di dati in categorie.

Gli algoritmi di classificazione nell’apprendimento automatico usano i dati di addestramento in ingresso per predire la probabilità che i dati successivi rientrino in una delle categorie predeterminate. Uno degli usi più comuni della classificazione è filtrare le e-mail in “spam” o “non spam”.

In breve, la classificazione è una forma di “pattern recognition”, con algoritmi di classificazione applicati ai dati di training per trovare lo stesso schema (parole o sentimenti simili, sequenze di numeri, ecc.) in futuri set di dati.

Utilizzando gli algoritmi di classificazione, di cui parleremo più in dettaglio in seguito, i software di analisi del testo possono eseguire cose come la sentiment analysis per categorizzare il testo non strutturato in base alla polarità dell’opinione (positiva, negativa, neutra e oltre).

Prova questo classificatore di sentimento pre-addestrato per capire come funzionano gli algoritmi di classificazione nella pratica, poi continua a leggere per saperne di più sui diversi tipi.

Top 5 Algoritmi di Classificazione nel Machine Learning

Lo studio della classificazione in statistica è vasto, e ci sono diversi tipi di algoritmi di classificazione che puoi usare a seconda del dataset con cui stai lavorando. Qui sotto ci sono cinque degli algoritmi più comuni nell’apprendimento automatico.

Vari tipi di algoritmi di classificazione:

  • Logistic Regression
  • Naive Bayes Classifier
  • K-Nearest Neighbors
  • Decision Tree
    • Random Forest
  • Support Vector Machines

Logistic Regression

Logistic regression is a calculation used to predict a binary outcome: either something happens, or does not. This can be exhibited as Yes/No, Pass/Fail, Alive/Dead, etc.

Independent variables are analyzed to determine the binary outcome with the results falling into one of two categories. The independent variables can be categorical or numeric, but the dependent variable is always categorical. Written like this:

P(Y=1|X) or P(Y=0|X)

It calculates the probability of dependent variable Y, given independent variable X.

This can be used to calculate the probability of a word having a positive or negative connotation (0, 1, or on a scale between). Oppure può essere usato per determinare l’oggetto contenuto in una foto (albero, fiore, erba, ecc.), dando ad ogni oggetto una probabilità tra 0 e 1.

Classificatore di Bayes ingenuo

Bayes ingenuo calcola la possibilità che un punto dati appartenga o meno ad una certa categoria. Nell’analisi del testo, può essere usato per categorizzare parole o frasi come appartenenti a un “tag” (classificazione) predefinito o no. Per esempio:

image7 2

Per decidere se una frase debba essere etichettata o meno come “sport”, è necessario calcolare:

Oppure… la probabilità di A, se B è vero, è uguale alla probabilità di B, se A è vero, moltiplicata per la probabilità che A sia vero, diviso la probabilità che B sia vero.

K-nearest Neighbors

K-nearest neighbors (k-NN) è un algoritmo di riconoscimento dei modelli che usa i set di dati di addestramento per trovare i k parenti più vicini negli esempi futuri.

Quando k-NN è usato nella classificazione, si calcola di mettere i dati nella categoria del suo vicino più vicino. Se k = 1, allora verrebbe collocato nella classe più vicina a 1. K viene classificato da un sondaggio di pluralità dei suoi vicini.

Albero di decisione

Un albero di decisione è un algoritmo di apprendimento supervisionato che è perfetto per i problemi di classificazione, poiché è in grado di ordinare le classi ad un livello preciso. Funziona come un diagramma di flusso, separando i punti di dati in due categorie simili alla volta dal “tronco dell’albero” ai “rami”, alle “foglie”, dove le categorie diventano più simili in modo finito. Questo crea categorie all’interno delle categorie, permettendo una classificazione organica con una limitata supervisione umana.

Per continuare con l’esempio sportivo, ecco come funziona l’albero decisionale:

Un esempio di albero decisionale che divide diversi sport.

Foresta casuale

L’algoritmo della foresta casuale è un’espansione dell’albero decisionale, nel senso che, prima si costruiscono alcuni alberi decisionali del mondo reale con dati di allenamento, poi si inseriscono i nuovi dati all’interno di uno degli alberi come una “foresta casuale”.

Esso, essenzialmente, fa una media dei vostri dati per collegarli all’albero più vicino sulla scala dei dati. I modelli di foresta casuale sono utili perché rimediano al problema dell’albero decisionale di “forzare” inutilmente i punti di dati all’interno di una categoria.

Macchine a vettore di supporto

Una macchina a vettore di supporto (SVM) usa algoritmi per addestrare e classificare i dati entro gradi di polarità, portandoli ad un grado superiore alla previsione X/Y.

Per una semplice spiegazione visiva, useremo due tag: rosso e blu, con due caratteristiche dei dati: X e Y, quindi addestreremo il nostro classificatore a produrre una coordinata X/Y come rossa o blu.

image4 3

L’SVM assegna quindi un iperpiano che separa meglio i tag. In due dimensioni questo è semplicemente una linea. Qualsiasi cosa su un lato della linea è rossa e qualsiasi cosa sull’altro lato è blu. Nella sentiment analysis, per esempio, questo sarebbe positivo e negativo.

Al fine di massimizzare l’apprendimento automatico, il miglior iperpiano è quello con la maggiore distanza tra ogni tag:

image3 2

Tuttavia, poiché le serie di dati diventano più complesse, potrebbe non essere possibile tracciare una singola linea per classificare i dati in due campi:

image2 3

Utilizzando SVM, più complessi sono i dati, più preciso diventa il predittore. Immaginate quanto sopra in tre dimensioni, con un asse Z aggiunto, in modo che diventi un cerchio.

Mappato di nuovo a due dimensioni con il miglior iperpiano, appare così:

image6 2

SVM permette un apprendimento automatico più accurato perché è multidimensionale.

4 Applicazioni degli algoritmi di classificazione

Ok, ora abbiamo capito un po’ di matematica dietro la classificazione, ma cosa possono fare questi algoritmi di apprendimento automatico con i dati del mondo reale?

  • Analisi del sentimento
  • Classificazione dello spam e-mail
  • Classificazione dei documenti
  • Classificazione delle immagini

Analisi del sentimento

L’analisi del sentimento è una tecnica di analisi testuale di apprendimento automatico che assegna il sentimento (opinione, sensazione o emozione) alle parole di un testo, o di un intero testo, su una scala di polarità positiva, negativa o neutrale.

Può leggere automaticamente migliaia di pagine in pochi minuti o monitorare costantemente i social media per i post su di voi. Il tweet qui sotto, per esempio, sull’app di messaggistica, Slack, verrebbe analizzato per tirare tutte le singole dichiarazioni come Positive. Questo permette alle aziende di seguire i rilasci dei prodotti e le campagne di marketing in tempo reale, per vedere come i clienti stanno reagendo.

image5 3

Utilizzando avanzati algoritmi di machine learning, i modelli di sentiment analysis possono essere addestrati a leggere cose come il sarcasmo e parole usate o scritte male. Una volta addestrati correttamente, i modelli producono risultati accurati in una frazione del tempo necessario agli esseri umani.

Immergiti per provare lo strumento di classificazione del sentiment pre-addestrato di MonkeyLearn. Oppure impara a costruire il tuo classificatore di sentiment in base alla lingua e alle esigenze del tuo business.

Classificazione dello spam via email

Uno degli usi più comuni della classificazione, che lavora senza sosta e con poco bisogno di interazione umana, la classificazione dello spam via email ci salva da noiosi compiti di cancellazione e a volte anche da costose truffe di phishing.

Le applicazioni email usano gli algoritmi di cui sopra per calcolare la probabilità che una email non sia destinata al destinatario o sia spam indesiderato. Usando le tecniche di classificazione dell’analisi del testo, le email di spam vengono eliminate dalla normale posta in arrivo: forse il nome di un destinatario è scritto in modo errato, o vengono usate certe parole chiave per truffare.

I classificatori di spam hanno ancora bisogno di essere addestrati in una certa misura, come abbiamo sperimentato tutti quando ci siamo iscritti a una lista di email di qualche tipo che è finita nella cartella dello spam.

Classificazione dei documenti

La classificazione dei documenti è l’ordinamento dei documenti in categorie secondo il loro contenuto. Questo veniva fatto in precedenza manualmente, come nelle scienze bibliotecarie o nei file legali ordinati a mano. Gli algoritmi di classificazione dell’apprendimento automatico, tuttavia, permettono di farlo automaticamente.

La classificazione dei documenti differisce dalla classificazione del testo, in quanto vengono classificati interi documenti, piuttosto che solo parole o frasi. Questo viene messo in pratica quando si usano i motori di ricerca online, quando si fanno riferimenti incrociati tra argomenti in documenti legali e quando si cercano documenti sanitari per farmaco e diagnosi.

Classificazione delle immagini

La classificazione delle immagini assegna categorie precedentemente addestrate a una data immagine. Queste potrebbero essere il soggetto dell’immagine, un valore numerico, un tema, ecc. La classificazione delle immagini può anche utilizzare classificatori di immagini multietichetta, che funzionano in modo simile ai classificatori di testo multietichetta, per etichettare un’immagine di un ruscello, per esempio, in diverse etichette, come “ruscello”, “acqua”, “all’aperto”, ecc.

Utilizzando algoritmi di apprendimento supervisionato, è possibile etichettare le immagini per addestrare il modello per le categorie appropriate. Come per tutti i modelli di apprendimento automatico, più lo si addestra, meglio funzionerà.

Ripresa

La classificazione dell’apprendimento automatico usa la guida matematicamente dimostrabile degli algoritmi per eseguire compiti analitici che richiederebbero centinaia di ore in più agli umani. E con gli algoritmi appropriati e un modello adeguatamente addestrato, i programmi di classificazione eseguono un livello di precisione che gli umani non potrebbero mai raggiungere.

MonkeyLearn è una piattaforma di analisi del testo con dozzine di strumenti per far progredire il tuo business con intuizioni guidate dai dati. Prova gli strumenti di classificazione pre-addestrati qui sotto per vedere come funziona:

  • Classificatore di sentimenti
  • Classificatore di intenti ed e-mail
  • Classificatore di feedback di sondaggi

MonkeyLearn va ben oltre la classificazione con strumenti di analisi del testo che ti daranno i risultati dei dati di cui il tuo business ha bisogno. Richiedi una demo per saperne di più sugli strumenti avanzati di analisi del testo di MonkeyLearn.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *