【深層学習入門】ニューラルネットワーク

1. 記事の目的
深層学習の基本に関して理論的な解説を行う。本記事ではニューラルネットワークについて解説を行う。

2. ニューロン
ニューラルネットワークは、人の脳の構造を模して作られている。人の脳は「ニューロン」と呼ばれる、神経細胞の１単位を組み合わせて構成されていると考えられている(図１参照。参考文献[1]より引用。)

f:id:camelsan:20210116090541j:plain — 図１ニューロン

人はニューロンに電気信号を伝わせてる。ある閾値を超えた時に次のニューロンに電気信号を送ることで様々な判断や認識をしている(図２参照)。

f:id:camelsan:20210116092246p:plain — 図２ニューロン間の電気信号の伝達

3. 単純パーセプトロン
ニューロンをモデル化したもので、最も単純な構造を単純パーセプトロンという。二つの頂点から一つの頂点に電気が流れてくると想定する(図３参照)。

f:id:camelsan:20210116092901p:plain — 図３単純パーセプトロンのモデル

左側の二つの頂点の電気量がそれぞれ、 $x_1$ 、 $x_2$ とし、各頂点を結ぶ辺に重みを付加する。それを $w_1$ 、 $w_2$ とする。閾値を $\theta$ とすると右の頂点での値は次のように計算される(図４参照)。

$y = \begin{cases} 1 &(w_1x_1+w_2x_2 \geq \theta) \\ 0 & (w_1x_1+w_2x_2 \lt \theta) \end{cases}$

f:id:camelsan:20210116100940p:plain — 図４単純パーセプトロンの伝達方法

4. 単純パーセプトロンによる論理回路
単純パーセプトロンで論理積を表すことができる。論理積とは、二つの入力値 $x_1$ 、 $x_2$ に対して値 $y$ が次のように $0$ と $1$ の２値で計算される演算子である。

$x_1$	$x_2$	$y$
0	0	0
0	1	0
1	0	0
1	1	1

$x_1, x_2 \in {0, 1}$ に対し、出力値 $y$ が次のように計算されるとすると、論理積を表すことができる。

$y = \begin{cases} 1 & (x_1+x_2 \geq \frac{3}{2}) \\ 0 & (x_1+x_2 \lt \frac{3}{2}) \end{cases}$

つまり、論理積を、重みが $1$ と $1$ 、閾値を $\frac{3}{2}$ とした単純パーセプトロンで表現することができる。

幾何学的に表現すると次のグラフの白点と黒点を分ける直線のグラフを求める問題と等価になる(白点が０、黒点が１の値を表す)。

f:id:camelsan:20210116103840p:plain — 図５論理積のグラフ

同様にして、論理和、論理否定も表現することができる。

5. 単純パーセプトロンの限界
単純パーセプトロンは線形分離的な問題にしか適用することができない。つまり非線形な問題に対しては適応できない。例えば、次の排他的論理和は単純パーセプトロンでは表現することはできない。

$x_1$	$x_2$	$y$
0	0	0
0	1	1
1	0	1
1	1	0

幾何学的には、次のグラフの白点と黒点を１本の直線で分離することは不可能である。

f:id:camelsan:20210116110552p:plain — 図６排他的論理和を表すグラフ

5. ニューラルネットワークの導入
上記の限界の対策方法として、単純パーセプトロンを組み合わせるというものがある。重みと、途中の頂点での関数の働きにより非線形な問題にも対応することができる。例えば、排他的論理和は次のように表すことができる。

f:id:camelsan:20210116112025p:plain — 図７排他的論理和を表す構造

ただし $y_1$ 、 $y_2$ 、 $y$ は次のように計算される。

$y_1 = \begin{cases} 1 & (2x_1+2x_2 \geq 1) \\ 0 & (2x_1+2x_2 \lt 1) \end{cases}$

$y_2 = \begin{cases} 1 & (-2x_1-2x_2 \geq -3) \\ 0 & (-2x_1-2x_2 \lt -3) \end{cases}$

$y_1 = \begin{cases} 1 & (2y_1+2y_2 \geq 3) \\ 0 & (2y_1+2y_2 \lt 3) \end{cases}$

ここで、ニューラルネットワークを数学的に定式化するために式を整理する。各頂点における不等式の閾値を左辺に移動させる。これをバイアスと呼ぶことにする。このようにすると各頂点には前の頂点の値とバイアスから値が集まっていると考えることができ、この値をステップ関数と呼ばれる次の関数を作用させていると考えられる。

$f(x) = \begin{cases} 1 & (x \geq 0) \\ 0 & (x \lt 0) \end{cases}$

これを活性化関数と言うことにする。ニューラルネットワークは、各頂点の値とバイアスを重みで線形和をとって活性化関数を作用させると言う操作を繰り返したものとなる。

6. ニューラルネットワーク
上記の定式化のしたがってニューラルネットワークを定義する。例として３層からなるニューラルネットワークを定義する(何層の定義でも繰り返すのみなので定義は基本的に同様である)。ここで層とは同列の頂点の並びのことを表す。すなわち図８のような３列に頂点が並んでるようなニューラルネットワークを定義する。

f:id:camelsan:20210116115422p:plain — 図８ニューラルネットワーク

最初の層を入力層、最後の層を出力層、間の層を全て隠れ層と言う。

隠れ層における出力は次の式で表現される。 $\ \textbf{x} = (x_1,\dots,x_I)$ を入力値のベクトル、 $\textbf{b} = (b_1,\dots,b_J)$ を隠れ層へのバイアスベクトル、 $\textbf{h}=(h_1,\dots,h_J)$ を隠れ層での出力値ベクトル、 $f$ を隠れ層での活性化関数とする。入力層と悪れ層を繋ぐ辺に付加された重みを行列で次のように表すとすると(第1インデックスが辺の終端の頂点のインデックス、第２インデックスが辺の始端の頂点のインデックスという対応)、

$W = \begin{pmatrix} w_{11} & \cdots & w_{1i} & \cdots & w_{1I}\\ \vdots & \ddots & & & \vdots \\ w_{i1} & & w_{ii} & & w_{iI} \\ \vdots & & & \ddots & \vdots \\ w_{J1} & \cdots & w_{Ji} & \cdots & w_{JI} \end{pmatrix}$

となる。これらの記号のもとで、隠れ層の出力は次の式で表される。

$\textbf{h} = f(W\textbf{x}+\textbf{b})$

また、 $\textbf{y} = (y_1,¥dots,y_K)$ を出力値のベクトル、 $g$ を出力層での活性化関数、 $¥textbf{c}=(c_1,¥dots,c_K)$ を出力層へのバイアスベクトル、 $V$ を隠れ層と出力層を繋ぐ重みの行列とする。この記号のもとで出力層での出力値は次のように表示される。