メニュー 閉じる

機械学習における分類アルゴリズム。 How They Work

分類は、データサイエンスにおける最も基本的な概念の 1 つです。 分類アルゴリズムは、学習データのセットを分析することで、データをあらかじめ設定されたカテゴリに割り当てるために使用される予測計算です。

  • 分類とは
  • 機械学習における分類アルゴリズムのトップ 5
  • 分類アルゴリズムの 4 つのアプリケーション

分類とは

分類とは、アイデアやオブジェクトを認識、理解、グループ化し、プリセットのカテゴリまたは「サブ集団」にするプロセスのことを言います。

機械学習における分類アルゴリズムは、入力された学習データを使用して、後続のデータが事前に設定されたカテゴリのいずれかに分類される可能性を予測します。 分類の最も一般的な用途の1つは、電子メールを “スパム” と “非スパム” にフィルタリングすることです。

要するに、分類は「パターン認識」の一形態であり、分類アルゴリズムを学習データに適用して、将来のデータ セットで同じパターン (類似の単語や感情、数列など) を見つけます。

以下で詳しく説明する分類アルゴリズムを使用すると、テキスト分析ソフトウェアで感情分析などを実行して、意見の極性 (肯定、否定、中立、その他) によって非構造化テキストを分類することができます。

事前に学習したセンチメント分類器を試して、分類アルゴリズムが実際にどのように機能するかを理解し、さまざまなタイプについてもっと学ぶために読み進めてください。 以下は、機械学習で最も一般的な 5 つのアルゴリズムです。

様々な種類の分類アルゴリズム。

  • Logistic Regression
  • Naive Bayes Classifier
  • K-Nearest Neighbors
  • Decision Tree
    • Random Forest
  • Support Vector Machines

Logistic Regression

Logistic regression is a calculation used to predict a binary outcome: either something happens, or does not. This can be exhibited as Yes/No, Pass/Fail, Alive/Dead, etc.

Independent variables are analyzed to determine the binary outcome with the results falling into one of two categories. The independent variables can be categorical or numeric, but the dependent variable is always categorical. Written like this:

P(Y=1|X) or P(Y=0|X)

It calculates the probability of dependent variable Y, given independent variable X.

This can be used to calculate the probability of a word having a positive or negative connotation (0, 1, or on a scale between). または、写真に含まれるオブジェクト (木、花、草など) を判断するために使用でき、各オブジェクトには 0 ~ 1 の確率が与えられます。

Naive Bayes 分類器

あるデータ ポイントが特定のカテゴリ内に属するかどうかの可能性を計算します。 テキスト分析では、単語やフレーズをあらかじめ設定された「タグ」に属するかどうか分類するために使用できます (分類)。 たとえば、

image7 2

フレーズを「スポーツ」としてタグ付けするかどうかを決定するには、計算する必要があります。

あるいは… A が真の場合、B が真の場合の確率は、Aが真の場合の確率に、B が真の確率をかけたものを割ったものと等しくなります。

K-nearest Neighbors

K-nearest Neighbors (k-NN) は、学習データセットを使用して、将来の例における k 番目の近親者を見つけるパターン認識アルゴリズムです。

分類で k-NN を使用する場合、データをその最近傍のカテゴリ内に配置するように計算します。 k = 1 の場合、それは最も近い 1 のクラスに配置されます。K は、その近隣の複数の poll によって分類されます。

決定木

決定木は、分類問題に最適な教師あり学習アルゴリズムで、クラスを正確なレベルで並べることができるからです。 フローチャートのように動作し、データ ポイントを「木の幹」から「枝」、「葉」へと一度に 2 つの類似したカテゴリに分離し、カテゴリがより細かく類似するようにします。

スポーツの例で続けると、決定木がどのように機能するかは次のようになります:

異なるスポーツを分割する決定木の例。

ランダム フォレスト

ランダム フォレスト アルゴリズムは決定木の拡張版で、まず学習データでいくつかの軸の実際の決定木を構築し、次に、新しいデータを「ランダム フォレスト」として木の 1 つに適合させます。

これは、基本的に、データを平均化して、データ スケールで最も近い木に接続します。 ランダムフォレストモデルは、カテゴリ内のデータ点を不必要に「強制」するという決定木の問題を改善するものとして有用です。

Support Vector Machine

サポート ベクトル マシン (SVM) は、極性の程度内でデータを学習および分類するアルゴリズムを使用し、X/Y 予測を超える程度まで持っていきます。

簡単な視覚的説明のために、赤と青の 2 つのタグを使用し、2 つのデータ特徴を使用します。

X Y の 2 つのタグを使用し、X/Y 座標を赤または青のいずれかとして出力するように分類器を訓練します。 2 次元では、これは単に線です。 線の一方の側にあるものは赤で、もう一方の側にあるものは青です。 たとえば、センチメント分析では、これはポジティブとネガティブになります。

機械学習を最大化するために、最適な超平面は、各タグの間の距離が最も大きいものです。

image3 2

しかし、データセットがより複雑になると、データを 2 つの陣営に分類するための単一の線を引くことができなくなる場合があります。

image2 3

SVMを使用すると、データが複雑になればなるほど、予測器の精度は高くなります。

最適な超平面を使用して 2 次元にマッピングすると、次のようになります:

image6 2

SVMでは多次元であるため、より正確な機械学習が可能です。

4 分類アルゴリズムの応用

さて、分類の背後にある数学について少し理解できましたが、これらの機械学習アルゴリズムは実際のデータで何ができるのでしょうか。

  • Sentiment Analysis
  • Email Spam Classification
  • Document Classification
  • Image Classification

感情分析

感情分析は機械学習のテキスト分析手法で、肯定、否定、中立の極性スケールでテキスト内の単語、またはテキスト全体に対して感情(意見、感情、または情動)を割り当てるものです。

数分で何千ものページに自動的に目を通したり、ソーシャルメディアを常に監視して、あなたに関する投稿を探したりすることができます。 たとえば、メッセージング アプリである Slack についての下のツイートは、個々の発言をすべて Positive として引き出すように分析されます。

image5 3

高度な機械学習アルゴリズムを使用して、感情分析モデルは、皮肉や誤用、スペルミスなどの単語を読み取るように訓練することが可能です。

一度適切に訓練されると、モデルは人間がかかる時間の何分の一かの時間で一貫して正確な結果を出します。

すぐに、訓練済みの MonkeyLearn の感情分類ツールを試してみてください。

分類の最も一般的な用途の 1 つで、ノンストップで動作し、人間の介入をほとんど必要としない、電子メール スパム分類により、退屈な削除作業や、時には高価なフィッシング詐欺から私たちを保護します。

メール アプリケーションは、上記のアルゴリズムを使用して、メールが受信者向けではない可能性または不要な迷惑メールである可能性を計算します。 テキスト分析の分類技術を使用して、スパム メールは、受信者の名前のスペルが間違っていたり、特定の詐欺的なキーワードが使用されていたりするため、通常の受信トレイから除外されます。

スパム分類器はまだある程度訓練する必要がありますが、これは、ある種のメール リストにサインアップしたときに、スパム フォルダーに入ってしまったという経験が誰にでもあるためです。 これは、以前は、図書館学や手作業で並べられた法律ファイルのように、手作業で行われていました。

ドキュメントの分類はテキストの分類とは異なり、単語やフレーズだけでなく、ドキュメント全体が分類されます。

画像分類では、与えられた画像に、事前に学習したカテゴリを割り当てます。 これらは、画像の被写体、数値、テーマなどである可能性があります。 画像分類では、マルチラベル テキスト分類器と同様に機能するマルチラベル画像分類器を使用して、たとえば、小川の画像に「小川」、「水」、「屋外」などの異なるラベルを付けることもできます。

教師あり学習アルゴリズムを使用すると、適切なカテゴリについてモデルを訓練するために画像にタグ付けすることができます。 すべての機械学習モデルと同様に、訓練すればするほど、より効果的になります。

機械学習の分類では、アルゴリズムの数学的に証明可能なガイドを使用して、人間が実行するにはさらに何百時間もかかるような分析タスクを実行します。 そして、適切なアルゴリズムが配置され、適切に訓練されたモデルにより、分類プログラムは人間が決して達成できないレベルの精度で実行されます。

MonkeyLearnは、データ駆動型の洞察でビジネスを前進させるための数多くのツールを備えたテキスト分析プラットフォームです。

  • Sentiment Classifier
  • Intent and Email Classifier
  • Survey Feedback Classifier

MonkeyLearnは、分類をはるかに超えたテキスト分析ツールで、ビジネスに必要なデータ結果を得ることができます。 MonkeyLearn の高度なテキスト分析ツールの詳細については、デモをご請求ください。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です