輪読会「AIエンジニアを目指す人のための機械学習入門」第2回

はじめに

てくますプロジェクトでは、てくますゼミと呼ばれる輪読会を隔週で開催しています。

少人数であーだこーだ議論しながら、考える楽しさを分かち合う、ゼミのようなコミュニティです。主に、AIなどの「IT × 数学」領域について学習しています。

てくますゼミ(Connpass)

てくますゼミの風景

現在は「AIエンジニアを目指す人のための機械学習入門」という本を読み進めています。

今回は本書第2回の輪読会ということで、2.4〜2.5を読み進めました!

本記事では、今回の勉強会で学んだことをざっくりと紹介していきます。

学習内容

ロジスティック回帰

ロジスティック回帰は「回帰」と名前が付いていますが、分類タスクで用いられます。分類とは入力データを与えたとき、対応する出力データとして、ラベルデータを予測する機械学習手法です。

ロジスティック回帰のカギはシグモイド関数です。

\(\displaystyleσ(x)=\frac{1}{1+e^{-x}}\)

シグモイド関数を用いることで、すべての実数を0〜1の範囲の値に変換することができます。

0〜1の値ということは確率として解釈できます。この確率により分類を行います。

関数を \(σ(ax+b)\) と一般化し、\(a\) や \(b\) の値を変化させることで、グラフの形は変わります。

どのような \(a\) や \(b\) の値にすることで、もっとも今回のデータに当てはまりのよい(=尤度が最大となる)グラフになるかを学習します。このような考え方を最尤推定といいます。

尤度や最尤推定についての詳しい説明は、他の方の記事を参照してください。

SVC

SVCの説明

SVC(Support Vector Machine Classification)も分類タスクで用いられるアルゴリズムです。SVCではマージンが最大となるような境界線を引くことを考えます。

マージンとは、クラスを分ける境界線に対して、それぞれのクラスで最も近いデータまでの距離のことです。

つまり、最も近い点までの距離がなるべく遠くなるように境界線を引くということですね。

しかし、データは綺麗に線形分離できるとは限りません。そのような場合には誤分類が発生します。誤分類に対しペナルティを与えることで、ペナルティも考慮したうえでの最良の境界線を考えることができます。

なお、計算にはラグランジュの未定乗数法を使います。

SVCはとても素朴なアイデアだと思いました。境界線に関わるのは、クラスから最も近い点のみであるというところがなんだか不思議ですね。

最後に

今回は分類を行うための2つの手法について学習しました。ロジスティック回帰のこころの理解が難しく感じました。

あとは参加メンバーが2人から3人に増えて嬉しかったです。もっとメンバーが増えていくといいですね。

次回も引き続き、分類について学んでいきます。S

では、また!

本シリーズの記事はこちら

各ゼミの第1回記事はこちら