Menú Cerrar

Los algoritmos de clasificación en el aprendizaje automático: Cómo funcionan

La clasificación es uno de los conceptos más fundamentales en la ciencia de datos. Los algoritmos de clasificación son cálculos predictivos utilizados para asignar datos a categorías preestablecidas mediante el análisis de conjuntos de datos de entrenamiento.

  • ¿Qué es la clasificación?
  • Los 5 mejores algoritmos de clasificación en el aprendizaje automático
  • 4 aplicaciones de los algoritmos de clasificación
    • ¿Qué es la clasificación?

      La clasificación es el proceso de reconocer, comprender y agrupar ideas y objetos en categorías preestablecidas o «subpoblaciones». Utilizando conjuntos de datos de entrenamiento pre-categorizados, los programas de aprendizaje automático utilizan una variedad de algoritmos para clasificar futuros conjuntos de datos en categorías.

      Los algoritmos de clasificación en el aprendizaje automático utilizan datos de entrenamiento de entrada para predecir la probabilidad de que los datos posteriores caigan en una de las categorías predeterminadas. Uno de los usos más comunes de la clasificación es filtrar los correos electrónicos en «spam» o «no spam».

      En resumen, la clasificación es una forma de «reconocimiento de patrones», con algoritmos de clasificación aplicados a los datos de entrenamiento para encontrar el mismo patrón (palabras o sentimientos similares, secuencias de números, etc.) en futuros conjuntos de datos.

      Usando algoritmos de clasificación, sobre los que entraremos en más detalle a continuación, el software de análisis de texto puede realizar cosas como el análisis de sentimientos para categorizar el texto no estructurado por la polaridad de la opinión (positiva, negativa, neutra y más allá).

      Pruebe este clasificador de sentimientos preentrenado para entender cómo funcionan los algoritmos de clasificación en la práctica, y luego siga leyendo para aprender más sobre los diferentes tipos.

      Los 5 mejores algoritmos de clasificación en el aprendizaje automático

      El estudio de la clasificación en estadística es muy amplio, y hay varios tipos de algoritmos de clasificación que puede utilizar dependiendo del conjunto de datos con el que esté trabajando. A continuación se presentan cinco de los algoritmos más comunes en el aprendizaje automático.

      Varios tipos de algoritmos de clasificación:

      • Logistic Regression
      • Naive Bayes Classifier
      • K-Nearest Neighbors
      • Decision Tree
        • Random Forest
      • Support Vector Machines

      Logistic Regression

      Logistic regression is a calculation used to predict a binary outcome: either something happens, or does not. This can be exhibited as Yes/No, Pass/Fail, Alive/Dead, etc.

      Independent variables are analyzed to determine the binary outcome with the results falling into one of two categories. The independent variables can be categorical or numeric, but the dependent variable is always categorical. Written like this:

      P(Y=1|X) or P(Y=0|X)

      It calculates the probability of dependent variable Y, given independent variable X.

      This can be used to calculate the probability of a word having a positive or negative connotation (0, 1, or on a scale between). O puede usarse para determinar el objeto que contiene una foto (árbol, flor, hierba, etc.), dando a cada objeto una probabilidad entre 0 y 1.

      Clasificador de Bayes ingenuo

      El Bayes ingenuo calcula la posibilidad de que un punto de datos pertenezca o no a una determinada categoría. En el análisis de textos, se puede utilizar para categorizar palabras o frases como pertenecientes a una «etiqueta» preestablecida (clasificación) o no. Por ejemplo:

      imagen7 2

      Para decidir si una frase debe ser etiquetada como «deportes» o no, es necesario calcular:

      O… la probabilidad de A, si B es verdadera, es igual a la probabilidad de B, si A es verdadera, por la probabilidad de que A sea verdadera, dividida por la probabilidad de que B sea verdadera.

      Vecinos más cercanos

      Los vecinos más cercanos (k-NN) es un algoritmo de reconocimiento de patrones que utiliza conjuntos de datos de entrenamiento para encontrar los k parientes más cercanos en los ejemplos futuros.

      Cuando se utiliza k-NN en la clasificación, se calcula para colocar los datos dentro de la categoría de su vecino más cercano. Si k = 1, entonces se colocaría en la clase más cercana a 1. K se clasifica por una encuesta de pluralidad de sus vecinos.

      Árbol de decisión

      Un árbol de decisión es un algoritmo de aprendizaje supervisado que es perfecto para los problemas de clasificación, ya que es capaz de ordenar las clases en un nivel preciso. Funciona como un diagrama de flujo, separando los puntos de datos en dos categorías similares a la vez desde el «tronco del árbol» a las «ramas», a las «hojas», donde las categorías se vuelven más finamente similares. Esto crea categorías dentro de categorías, lo que permite una clasificación orgánica con una supervisión humana limitada.

      Para continuar con el ejemplo de los deportes, así es como funciona el árbol de decisión:

      Un ejemplo de árbol de decisión que divide diferentes deportes.

      Bosque aleatorio

      El algoritmo de bosque aleatorio es una expansión del árbol de decisión, en el sentido de que, primero se construyen algunos árboles de decisión del mundo real con datos de entrenamiento, y luego se ajustan los nuevos datos dentro de uno de los árboles como un «bosque aleatorio.»

      Esencialmente, promedia sus datos para conectarlos con el árbol más cercano en la escala de datos. Los modelos de bosque aleatorio son útiles ya que remedian el problema del árbol de decisión de «forzar» puntos de datos dentro de una categoría innecesariamente.

      Máquinas de vectores de soporte

      Una máquina de vectores de soporte (SVM) utiliza algoritmos para entrenar y clasificar datos dentro de grados de polaridad, llevándolo a un grado más allá de la predicción X/Y.

      Para una explicación visual sencilla, utilizaremos dos etiquetas: rojo y azul, con dos características de datos: X e Y, y luego entrenar nuestro clasificador para dar salida a una coordenada X/Y como rojo o azul.

      image4 3

      El SVM entonces asigna un hiperplano que separa mejor las etiquetas. En dos dimensiones esto es simplemente una línea. Todo lo que está a un lado de la línea es rojo y todo lo que está al otro lado es azul. En el análisis de sentimiento, por ejemplo, esto sería positivo y negativo.

      Para maximizar el aprendizaje automático, el mejor hiperplano es el que tiene la mayor distancia entre cada etiqueta:

      image3 2

      Sin embargo, a medida que los conjuntos de datos se vuelven más complejos, puede que no sea posible trazar una única línea para clasificar los datos en dos campos:

      image2 3

      Usando la SVM, cuanto más complejos sean los datos, más preciso será el predictor. Imagine lo anterior en tres dimensiones, con un eje Z añadido, por lo que se convierte en un círculo.

      Mapeado de nuevo a dos dimensiones con el mejor hiperplano, se ve así:

      image6 2

      SVM permite un aprendizaje automático más preciso porque es multidimensional.

      4 Aplicaciones de los Algoritmos de Clasificación

      Muy bien, ahora entendemos un poco las matemáticas detrás de la clasificación, pero ¿qué pueden hacer estos algoritmos de aprendizaje automático con datos del mundo real?

      • Análisis de sentimientos
      • Clasificación de spam de correo electrónico
      • Clasificación de documentos
      • Clasificación de imágenes

      Análisis de sentimientos

      El análisis de sentimientos es una técnica de análisis de texto de aprendizaje automático que asigna el sentimiento (opinión, sentimiento o emoción) a las palabras dentro de un texto, o un texto completo, en una escala de polaridad de Positivo, Negativo o Neutral.

      Puede leer automáticamente miles de páginas en minutos o monitorizar constantemente las redes sociales en busca de publicaciones sobre ti. El tweet de abajo, por ejemplo, sobre la aplicación de mensajería, Slack, sería analizado para sacar todas las declaraciones individuales como Positivas. Esto permite a las empresas seguir los lanzamientos de productos y las campañas de marketing en tiempo real, para ver cómo reaccionan los clientes.

      image5 3

      Usando algoritmos avanzados de aprendizaje automático, los modelos de análisis de sentimiento pueden ser entrenados para leer cosas como el sarcasmo y las palabras mal utilizadas o mal escritas. Una vez entrenados adecuadamente, los modelos producen resultados consistentemente precisos en una fracción del tiempo que les tomaría a los humanos.

      Sumérjase para probar la herramienta de clasificación de sentimientos preentrenada de MonkeyLearn. O aprenda a construir su propio clasificador de sentimientos según el lenguaje y las necesidades de su negocio.

      Clasificación de spam de correo electrónico

      Uno de los usos más comunes de la clasificación, que trabaja sin parar y con poca necesidad de interacción humana, la clasificación de spam de correo electrónico nos salva de las tediosas tareas de borrado y, a veces, incluso de las costosas estafas de phishing.

      Las aplicaciones de correo electrónico utilizan los algoritmos anteriores para calcular la probabilidad de que un correo electrónico no esté destinado al destinatario o sea spam no deseado. Mediante técnicas de clasificación de análisis de texto, los correos electrónicos de spam se eliminan de la bandeja de entrada normal: quizá el nombre del destinatario esté mal escrito o se utilicen determinadas palabras clave de estafa.

      Los clasificadores de spam todavía necesitan ser entrenados hasta cierto punto, como todos hemos experimentado al apuntarnos a una lista de correo electrónico de algún tipo que acaba en la carpeta de spam.

      Clasificación de documentos

      La clasificación de documentos es la ordenación de los mismos en categorías según su contenido. Antes se hacía de forma manual, como en las bibliotecas o en los expedientes jurídicos ordenados a mano. Sin embargo, los algoritmos de clasificación de aprendizaje automático permiten realizarlo de forma automática.

      La clasificación de documentos difiere de la clasificación de textos, ya que se clasifican documentos enteros, en lugar de sólo palabras o frases. Esto se pone en práctica cuando se utilizan motores de búsqueda en línea, se cruzan temas en documentos legales y se buscan registros sanitarios por fármacos y diagnósticos.

      Clasificación de imágenes

      La clasificación de imágenes asigna categorías previamente entrenadas a una imagen determinada. Estas pueden ser el tema de la imagen, un valor numérico, un tema, etc. La clasificación de imágenes puede incluso utilizar clasificadores de imágenes multietiqueta, que funcionan de forma similar a los clasificadores de texto multietiqueta, para etiquetar una imagen de un arroyo, por ejemplo, en diferentes etiquetas, como «arroyo», «agua», «al aire libre», etc.

      Utilizando algoritmos de aprendizaje supervisado, puede etiquetar imágenes para entrenar su modelo para las categorías adecuadas. Al igual que con todos los modelos de aprendizaje automático, cuanto más lo entrene, mejor funcionará.

      Resumen

      La clasificación de aprendizaje automático utiliza la guía matemáticamente comprobable de los algoritmos para realizar tareas analíticas que a los humanos les llevaría cientos de horas más. Y con los algoritmos adecuados y un modelo correctamente entrenado, los programas de clasificación rinden a un nivel de precisión que los humanos nunca podrían alcanzar.

      MonkeyLearn es una plataforma de análisis de texto con docenas de herramientas para hacer avanzar su negocio con conocimientos basados en datos. Pruebe las herramientas de clasificación preentrenadas a continuación para ver cómo funciona:

      • Clasificador de sentimientos
      • Clasificador de intenciones y correos electrónicos
      • Clasificador de comentarios de encuestas
      • MonkeyLearn va mucho más allá de la clasificación con herramientas de análisis de texto que le darán los resultados de datos que su negocio necesita. Solicite una demostración para saber más sobre las herramientas avanzadas de análisis de texto de MonkeyLearn.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *