Menu Fechar

Classificação de Algoritmos no Aprendizado de Máquinas: Como Funcionam

Classificação é um dos conceitos mais fundamentais na ciência dos dados. Algoritmos de classificação são cálculos preditivos utilizados para atribuir dados a categorias predefinidas através da análise de conjuntos de dados de treinamento.

  • O que é Classificação?
  • Algoritmos de Classificação Top 5 no Aprendizado de Máquinas
  • 4 Aplicações dos Algoritmos de Classificação

O que é Classificação?

Classificação é o processo de reconhecimento, compreensão e agrupamento de idéias e objetos em categorias predefinidas ou “subpopulações”. Usando conjuntos de dados de treinamento pré-categorizados, os programas de aprendizagem de máquina usam uma variedade de algoritmos para classificar futuros conjuntos de dados em categorias.

Algoritmos de classificação na aprendizagem de máquina usam dados de treinamento de entrada para prever a probabilidade de que os dados subseqüentes se encaixem em uma das categorias predeterminadas. Um dos usos mais comuns da classificação é filtrar e-mails em “spam” ou “não-spam”.

Em suma, classificação é uma forma de “reconhecimento de padrões”, com algoritmos de classificação aplicados aos dados de treinamento para encontrar o mesmo padrão (palavras ou sentimentos semelhantes, seqüências numéricas, etc.) em futuros conjuntos de dados.

Usando algoritmos de classificação, que iremos detalhar a seguir, softwares de análise de texto podem realizar coisas como análise de sentimentos para classificar textos não estruturados por polaridade de opinião (positiva, negativa, neutra, e mais além).

Execute este classificador de sentimentos pré-treinado para entender como os algoritmos de classificação funcionam na prática, depois leia para aprender mais sobre diferentes tipos.

Top 5 Classification Algorithms in Machine Learning

O estudo da classificação em estatística é vasto, e existem vários tipos de algoritmos de classificação que você pode usar, dependendo do conjunto de dados com os quais você está trabalhando. Abaixo estão cinco dos algoritmos mais comuns na aprendizagem de máquinas.

Vários tipos de algoritmos de classificação:

  • Logistic Regression
  • Naive Bayes Classifier
  • K-Nearest Neighbors
  • Decision Tree
    • Random Forest
  • Support Vector Machines

Logistic Regression

Logistic regression is a calculation used to predict a binary outcome: either something happens, or does not. This can be exhibited as Yes/No, Pass/Fail, Alive/Dead, etc.

Independent variables are analyzed to determine the binary outcome with the results falling into one of two categories. The independent variables can be categorical or numeric, but the dependent variable is always categorical. Written like this:

P(Y=1|X) or P(Y=0|X)

It calculates the probability of dependent variable Y, given independent variable X.

This can be used to calculate the probability of a word having a positive or negative connotation (0, 1, or on a scale between). Ou pode ser usado para determinar o objeto contido em uma foto (árvore, flor, grama, etc.), com cada objeto dando uma probabilidade entre 0 e 1.

Naive Bayes Classifier

Naive Bayes calcula a possibilidade de um ponto de dados pertencer ou não a uma determinada categoria. Na análise de texto, ele pode ser usado para categorizar palavras ou frases como pertencentes a uma “tag” (classificação) predefinida ou não. Por exemplo:

image7 2

Para decidir se uma frase deve ou não ser etiquetada como “esporte”, você precisa calcular:

Or… a probabilidade de A, se B for verdadeiro, é igual à probabilidade de B, se A for verdadeiro, vezes a probabilidade de A ser verdadeiro, dividida pela probabilidade de B ser verdadeiro.

K-nearest Neighbors

K-nearest Neighbors (k-NN) é um algoritmo de reconhecimento de padrões que usa conjuntos de dados de treinamento para encontrar os k parentes mais próximos em exemplos futuros.

Quando o k-NN é usado na classificação, você calcula para colocar os dados dentro da categoria do seu vizinho mais próximo. Se k = 1, então seria colocado na classe mais próxima 1. K é classificado por uma sondagem de pluralidade dos seus vizinhos.

Árvore de decisão

Uma árvore de decisão é um algoritmo de aprendizagem supervisionada que é perfeito para problemas de classificação, uma vez que é capaz de ordenar aulas num nível preciso. Ele funciona como um fluxograma, separando os pontos de dados em duas categorias semelhantes de cada vez do “tronco da árvore” para “ramos”, para “folhas”, onde as categorias se tornam mais finamente semelhantes. Isto cria categorias dentro das categorias, permitindo uma classificação orgânica com supervisão humana limitada.

Para continuar com o exemplo dos esportes, é assim que a árvore de decisão funciona:

Um exemplo de uma árvore de decisão dividindo diferentes esportes.

Floresta aleatória

O algoritmo da floresta aleatória é uma expansão da árvore de decisão, na qual, primeiro você constrói árvores de decisão do mundo real de algum eixo com dados de treinamento, depois encaixa seus novos dados dentro de uma das árvores como uma “floresta aleatória”.

É, essencialmente, uma média dos seus dados para conectá-los à árvore mais próxima na escala de dados. Os modelos florestais aleatórios são úteis para resolver o problema da árvore de decisão de “forçar” pontos de dados dentro de uma categoria desnecessariamente.

Máquinas vetoriais de suporte

Uma máquina vetorial de suporte (SVM) usa algoritmos para treinar e classificar dados dentro de graus de polaridade, levando-os a um grau além da previsão X/Y.

Para uma explicação visual simples, vamos usar duas tags: vermelha e azul, com duas características de dados: X e Y, depois treinamos o nosso classificador para produzir uma coordenada X/Y como vermelho ou azul.

image4 3

O SVM então atribui um hiperplano que melhor separa as tags. Em duas dimensões, isto é simplesmente uma linha. Qualquer coisa de um lado da linha é vermelha e qualquer coisa do outro lado é azul. Na análise dos sentimentos, por exemplo, isto seria positivo e negativo.

Para maximizar a aprendizagem da máquina, o melhor hiperplano é aquele com a maior distância entre cada tag:

image3 2

Contudo, à medida que os conjuntos de dados se tornam mais complexos, pode não ser possível traçar uma única linha para classificar os dados em dois campos:

image2 3

p>Usando SVM, quanto mais complexos forem os dados, mais preciso se tornará o preditor. Imagine o acima em três dimensões, com um eixo Z adicionado, então ele se torna um círculo.

Mapa de volta a duas dimensões com o melhor hiperplano, ele parece assim:

image6 2

SVM permite uma aprendizagem mais precisa da máquina porque é multidimensional.

4 Aplicações de Algoritmos de Classificação

Okay, então agora entendemos um pouco da matemática por trás da classificação, mas o que estes algoritmos de aprendizagem de máquina podem fazer com os dados do mundo real?

  • Análise de Sentimento
  • Email Classificação de Spam
  • Classificação de Documentos
  • Classificação de Imagens

Análise de Sentimento

Análise de Sentimento é uma técnica de análise de texto de aprendizagem automática que atribui sentimento (opinião, sentimento ou emoção) a palavras dentro de um texto, ou um texto inteiro, numa escala de polaridade de Positivo, Negativo ou Neutro.

Pode ler automaticamente através de milhares de páginas em minutos ou monitorar constantemente as redes sociais para posts sobre você. O tweet abaixo, por exemplo, sobre o aplicativo de mensagens, Slack, seria analisado para puxar todas as afirmações individuais como Positivo. Isto permite às empresas acompanhar lançamentos de produtos e campanhas de marketing em tempo real, para ver como os clientes estão reagindo.

image5 3

Usando algoritmos avançados de aprendizagem de máquina, modelos de análise de sentimentos podem ser treinados para ler para coisas como sarcasmo e palavras mal utilizadas ou mal soletradas. Uma vez devidamente treinados, os modelos produzem resultados consistentemente precisos em uma fração do tempo que levaria para os humanos.

Mergulhar diretamente para experimentar a ferramenta de classificação de sentimentos pré-treinados do MonkeyLearn. Ou aprenda como construir o seu próprio classificador de sentimentos para a linguagem e necessidades do seu negócio.

Email Classificação de Spam

Um dos usos mais comuns da classificação, trabalhando sem parar e com pouca necessidade de interação humana, a classificação de spam de e-mail nos poupa de tarefas tediosas de eliminação e às vezes até mesmo dispendiosas fraudes de phishing.

As aplicações de e-mail usam os algoritmos acima para calcular a probabilidade de que um e-mail não seja destinado ao destinatário ou spam indesejado. Usando técnicas de classificação de análise de texto, os e-mails de spam são eliminados da caixa de entrada normal: talvez o nome de um destinatário esteja escrito incorretamente, ou certas palavras-chave fraudulentas sejam usadas.

Os classificadores de spam ainda precisam ser treinados até certo ponto, como todos nós experimentamos quando nos inscrevemos numa lista de e-mails de algum tipo que acaba na pasta de spam.

Classificação de documentos

A classificação de documentos é a ordenação dos documentos em categorias de acordo com o seu conteúdo. Isto era feito anteriormente manualmente, como nas ciências da biblioteca ou em arquivos legais ordenados à mão. Algoritmos de classificação de aprendizagem de máquina, porém, permitem que isso seja feito automaticamente.

A classificação de documentos difere da classificação de texto, na medida em que, documentos inteiros, ao invés de apenas palavras ou frases, são classificados. Isto é posto em prática quando se utilizam motores de busca on-line, cruzando tópicos em documentos legais e pesquisando registros de saúde por droga e diagnóstico.

Image Classification

Image classification assigns previously trained categories to a given image. Estas podem ser o tema da imagem, um valor numérico, um tema, etc. A classificação de imagens pode até usar classificadores de imagens multi-label, que funcionam de forma similar aos classificadores de texto multi-label, para marcar uma imagem de um fluxo, por exemplo, em diferentes etiquetas, como “fluxo”, “água”, “ao ar livre”, etc.

Usando algoritmos de aprendizagem supervisionada, você pode marcar imagens para treinar seu modelo para categorias apropriadas. Como em todos os modelos de aprendizagem de máquinas, quanto mais você treiná-lo, melhor ele irá funcionar.

Wrap Up

A classificação da aprendizagem de máquinas usa o guia de algoritmos matematicamente prováveis para realizar tarefas analíticas que levariam centenas de horas a mais para os humanos realizarem. E com os algoritmos apropriados no lugar e um modelo devidamente treinado, os programas de classificação executam a um nível de precisão que os humanos nunca poderiam alcançar.

MonkeyLearn é uma plataforma de análise de texto com dezenas de ferramentas para fazer o seu negócio avançar com insights orientados por dados. Experimente as ferramentas de classificação pré-treinado abaixo para ver como funciona:

  • Sentiment Classifier
  • Intent and Email Classifier
  • Survey Feedback Classifier

MonkeyLearn vai muito além da classificação com ferramentas de análise de texto que lhe darão os resultados dos dados que o seu negócio precisa. Solicite uma demonstração para aprender mais sobre as ferramentas avançadas de análise de texto do MonkeyLearn.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *