Menu Zamknij

Algorytmy klasyfikacyjne w uczeniu maszynowym: How They Work

Klasyfikacja jest jednym z najbardziej fundamentalnych pojęć w nauce o danych. Algorytmy klasyfikacyjne są obliczeniami predykcyjnymi używanymi do przypisywania danych do zadanych kategorii poprzez analizę zbiorów danych treningowych.

  • Czym jest klasyfikacja?
  • Top 5 Classification Algorithms in Machine Learning
  • 4 Applications of Classification Algorithms

What Is Classification?

Klasyfikacja jest procesem rozpoznawania, rozumienia i grupowania idei i obiektów w zadane kategorie lub „subpopulacje”. Wykorzystując wstępnie skategoryzowane zestawy danych treningowych, programy uczenia maszynowego używają różnych algorytmów do klasyfikowania przyszłych zestawów danych do kategorii.

Algorytmy klasyfikacji w uczeniu maszynowym używają wejściowych danych treningowych do przewidywania prawdopodobieństwa, że kolejne dane będą należeć do jednej z wcześniej ustalonych kategorii. Jednym z najczęstszych zastosowań klasyfikacji jest filtrowanie wiadomości e-mail na „spam” lub „nie-spam”.

W skrócie, klasyfikacja jest formą „rozpoznawania wzorców”, z algorytmami klasyfikacyjnymi stosowanymi do danych szkoleniowych w celu znalezienia tego samego wzorca (podobnych słów lub odczuć, sekwencji liczb, itp.) w przyszłych zestawach danych.

Używając algorytmów klasyfikacyjnych, które omówimy bardziej szczegółowo poniżej, oprogramowanie do analizy tekstu może wykonywać takie czynności, jak analiza sentymentu w celu kategoryzacji nieustrukturyzowanego tekstu według polaryzacji opinii (pozytywna, negatywna, neutralna i inne).

Wypróbuj ten wstępnie wytrenowany klasyfikator sentymentu, aby zrozumieć jak algorytmy klasyfikacji działają w praktyce, a następnie czytaj dalej, aby dowiedzieć się więcej o różnych typach.

Top 5 Classification Algorithms in Machine Learning

Badanie klasyfikacji w statystyce jest rozległe i istnieje kilka typów algorytmów klasyfikacji, których możesz użyć w zależności od zbioru danych, z którym pracujesz. Poniżej przedstawiamy pięć najczęściej stosowanych algorytmów w uczeniu maszynowym.

Różne typy algorytmów klasyfikacji:

  • Logistic Regression
  • Naive Bayes Classifier
  • K-Nearest Neighbors
  • Decision Tree
    • Random Forest
  • Support Vector Machines

Logistic Regression

Logistic regression is a calculation used to predict a binary outcome: either something happens, or does not. This can be exhibited as Yes/No, Pass/Fail, Alive/Dead, etc.

Independent variables are analyzed to determine the binary outcome with the results falling into one of two categories. The independent variables can be categorical or numeric, but the dependent variable is always categorical. Written like this:

P(Y=1|X) or P(Y=0|X)

It calculates the probability of dependent variable Y, given independent variable X.

This can be used to calculate the probability of a word having a positive or negative connotation (0, 1, or on a scale between). Lub może być użyty do określenia obiektu zawartego na zdjęciu (drzewo, kwiat, trawa, itp.), z każdym obiektem o prawdopodobieństwie pomiędzy 0 a 1.

Naiwny klasyfikator Bayesa

Naiwny klasyfikator Bayesa oblicza prawdopodobieństwo, czy punkt danych należy do pewnej kategorii, czy nie. W analizie tekstu, może być używany do kategoryzowania słów lub fraz jako należących do zadanego „tagu” (klasyfikacji) lub nie. Na przykład:

image7 2

Aby zdecydować, czy fraza powinna być oznaczona jako „sport”, czy nie, należy obliczyć:

Or… prawdopodobieństwo A, jeśli B jest prawdą, jest równe prawdopodobieństwu B, jeśli A jest prawdą, razy prawdopodobieństwo A bycia prawdą, podzielone przez prawdopodobieństwo B bycia prawdą.

K-najbliżsi sąsiedzi

K-najbliżsi sąsiedzi (k-NN) jest algorytmem rozpoznawania wzorców, który używa zestawów danych treningowych do znalezienia k najbliższych krewnych w przyszłych przykładach.

Gdy k-NN jest używany w klasyfikacji, obliczasz, aby umieścić dane w kategorii ich najbliższego sąsiada. Jeśli k = 1, to dane zostaną umieszczone w klasie najbliższej 1. K jest klasyfikowane przez wielość sąsiadów.

Drzewo decyzyjne

Drzewo decyzyjne jest algorytmem uczenia nadzorowanego, który jest idealny dla problemów klasyfikacji, ponieważ jest w stanie uporządkować klasy na precyzyjnym poziomie. Działa jak wykres przepływu, rozdzielając punkty danych na dwie podobne kategorie w czasie od „pnia drzewa” do „gałęzi”, do „liści”, gdzie kategorie stają się bardziej podobne. Tworzy to kategorie w ramach kategorii, pozwalając na organiczną klasyfikację przy ograniczonym nadzorze człowieka.

Kontynuując przykład sportowy, oto jak działa drzewo decyzyjne:

Przykład drzewa decyzyjnego dzielącego różne dyscypliny sportowe.

Las losowy

Algorytm lasu losowego jest rozszerzeniem drzewa decyzyjnego, w tym, że najpierw konstruujesz kilka osiowych drzew decyzyjnych w świecie rzeczywistym z danymi szkoleniowymi, a następnie dopasowujesz nowe dane w ramach jednego z drzew jako „las losowy”.

To, zasadniczo, uśrednia twoje dane, aby połączyć je z najbliższym drzewem na skali danych. Modele lasów losowych są pomocne, ponieważ stanowią remedium na problem drzewa decyzyjnego polegający na niepotrzebnym „wymuszaniu” punktów danych w obrębie kategorii.

Maszyny Wektorów Podtrzymujących

Maszyny Wektorów Podtrzymujących (SVM) używają algorytmów do trenowania i klasyfikowania danych w stopniach polaryzacji, wykraczając poza przewidywanie X/Y.

Dla prostego wyjaśnienia wizualnego, użyjemy dwóch znaczników: czerwonego i niebieskiego, z dwoma cechami danych: X i Y, a następnie wytrenujemy nasz klasyfikator, aby wyprowadził współrzędną X/Y jako czerwoną lub niebieską.

image4 3

SVM następnie przypisuje hiperpłaszczyznę, która najlepiej oddziela znaczniki. W dwóch wymiarach jest to po prostu linia. Wszystko, co znajduje się po jednej stronie linii, jest czerwone, a wszystko, co znajduje się po drugiej stronie, jest niebieskie. Na przykład w analizie sentymentu byłyby to słowa pozytywne i negatywne.

Aby zmaksymalizować uczenie maszynowe, najlepszą hiperpłaszczyzną jest ta z największą odległością pomiędzy każdym znacznikiem:

image3 2

Jednakże, gdy zbiory danych stają się bardziej złożone, może nie być możliwe narysowanie pojedynczej linii klasyfikującej dane do dwóch obozów:

image2 3

Używając SVM, im bardziej złożone dane, tym dokładniejszy stanie się predyktor. Wyobraźmy sobie powyższy obraz w trzech wymiarach, z dodaną osią Z, więc staje się on okręgiem.

Mapując go z powrotem do dwóch wymiarów z najlepszą hiperpłaszczyzną, wygląda on tak:

image6 2

SVM pozwala na dokładniejsze uczenie maszynowe, ponieważ jest wielowymiarowy.

4 Zastosowania algorytmów klasyfikacyjnych

Dobrze, więc teraz rozumiemy trochę matematyki stojącej za klasyfikacją, ale co te algorytmy uczenia maszynowego mogą zrobić z prawdziwymi danymi?

  • Analiza sentymentu
  • Klasyfikacja spamu pocztowego
  • Klasyfikacja dokumentów
  • Klasyfikacja obrazów

Analiza sentymentu

Analiza sentymentu jest techniką analizy tekstu opartą na uczeniu maszynowym, która przypisuje sentyment (opinię, uczucie lub emocję) słowom w tekście lub całemu tekstowi, w skali pozytywnej, negatywnej lub neutralnej.

To może automatycznie czytać przez tysiące stron w ciągu kilku minut lub stale monitorować media społecznościowe dla postów o Tobie. Poniższy tweet, na przykład, o aplikacji do przesyłania wiadomości, Slack, zostanie przeanalizowany, aby wyciągnąć wszystkie poszczególne stwierdzenia jako pozytywne. To pozwala firmom śledzić wydania produktów i kampanie marketingowe w czasie rzeczywistym, aby zobaczyć, jak klienci reagują.

image5 3

Używając zaawansowanych algorytmów uczenia maszynowego, modele analizy sentymentu mogą być szkolone do czytania dla rzeczy takich jak sarkazm i nadużywane lub błędnie napisane słowa. Po odpowiednim przeszkoleniu, modele dają spójne i dokładne wyniki w ułamku czasu potrzebnego człowiekowi.

Zanurz się i wypróbuj wstępnie wytrenowane narzędzie MonkeyLearn do klasyfikacji sentymentu. Możesz też dowiedzieć się, jak zbudować własny klasyfikator sentymentu dostosowany do języka i potrzeb Twojej firmy.

Klasyfikacja spamu w poczcie elektronicznej

Jednym z najczęstszych zastosowań klasyfikacji, pracującym non-stop i z niewielką potrzebą interakcji z człowiekiem, jest klasyfikacja spamu w poczcie elektronicznej, która ratuje nas przed żmudnymi zadaniami usuwania wiadomości, a czasem nawet kosztownymi oszustwami typu phishing.

Aplikacje pocztowe wykorzystują powyższe algorytmy do obliczania prawdopodobieństwa, że wiadomość e-mail nie jest przeznaczona dla odbiorcy lub jest niechcianym spamem. Wykorzystując techniki klasyfikacji analizy tekstu, wiadomości spamowe są odseparowywane od zwykłej skrzynki odbiorczej: być może nazwisko odbiorcy jest napisane niepoprawnie lub użyto w nich pewnych oszukańczych słów kluczowych.

Klasyfikatory spamu nadal muszą być w pewnym stopniu wytrenowane, czego wszyscy doświadczyliśmy, zapisując się na listę e-maili, które trafiają do folderu spamu.

Klasyfikacja dokumentów

Klasyfikacja dokumentów to uporządkowanie dokumentów w kategorie według ich treści. Wcześniej robiono to ręcznie, jak w bibliotekach lub ręcznie porządkowano akta prawne. Algorytmy uczenia maszynowego pozwalają jednak na wykonywanie tej czynności automatycznie.

Klasyfikacja dokumentów różni się od klasyfikacji tekstów tym, że klasyfikowane są całe dokumenty, a nie tylko słowa lub frazy. Jest to stosowane w praktyce podczas korzystania z wyszukiwarek internetowych, porównywania tematów w dokumentach prawnych i przeszukiwania dokumentacji medycznej według leków i diagnoz.

Klasyfikacja obrazów

Klasyfikacja obrazów przypisuje wcześniej wyszkolone kategorie do danego obrazu. Może to być temat obrazu, wartość liczbowa, temat, itp. Klasyfikacja obrazu może nawet używać klasyfikatorów obrazu multi-label, które działają podobnie do klasyfikatorów tekstu multi-label, aby oznaczyć obraz strumienia, na przykład, do różnych etykiet, takich jak „strumień”, „woda”, „na zewnątrz” itp.

Używając algorytmów uczenia nadzorowanego, możesz oznaczyć obrazy, aby trenować model dla odpowiednich kategorii. Jak w przypadku wszystkich modeli uczenia maszynowego, im więcej będziesz go trenował, tym lepiej będzie działał.

Wrap Up

Klasyfikacja uczenia maszynowego wykorzystuje matematycznie sprawdzalne przewodnictwo algorytmów do wykonywania zadań analitycznych, których wykonanie zajęłoby ludziom setki godzin. Przy zastosowaniu odpowiednich algorytmów i odpowiednio wytrenowanego modelu, programy klasyfikujące osiągają poziom dokładności, którego człowiek nigdy nie byłby w stanie osiągnąć.

MonkeyLearn to platforma do analizy tekstu zawierająca dziesiątki narzędzi, które pozwolą Twojej firmie rozwijać się dzięki spostrzeżeniom opartym na danych. Wypróbuj poniższe narzędzia do wstępnej klasyfikacji, aby zobaczyć jak to działa:

  • Klasyfikator sentymentu
  • Klasyfikator intencji i wiadomości e-mail
  • Klasyfikator opinii w ankietach

MonkeyLearn wykracza daleko poza klasyfikację dzięki narzędziom do analizy tekstu, które zapewnią Ci wyniki danych, jakich potrzebuje Twoja firma. Poproś o demo, aby dowiedzieć się więcej o zaawansowanych narzędziach analizy tekstu MonkeyLearn.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *