ニューラルネットワークの構築　〜活性化関数について〜

書籍で学んだことのメモ。
誰の役にも立たず、ただ自分の為だけの記事になる予感がします。

パーセプトロンとニューラルネットワーク
シグモイド関数
ステップ関数とシグモイド関数の違い
簡単なニューラルネットワークの構築
実践的なニューラルネットワークの構築

パーセプトロンとニューラルネットワーク

各ニューロンへの入力信号の総和を出力信号に変換する関数を活性化関数と呼ぶ。
活性化関数は入力信号の総和がどのように活性化するか（どのように発火するか）ということを決定する役割がある。

ある閾値を境にして出力が切り替わる活性化関数は「ステップ関数」や「階段関数」と呼ばれる。
これは、活性化関数の候補としてたくさんある関数の中で、パーセプトロンは活性化関数にステップ関数を用いていることを表している。

この活性化関数にステップ関数以外を用いることでニューラルネットワークが実現できる。

シグモイド関数

ニューラルネットワークで用いられる活性化関数のひとつとして、シグモイド関数があげられます。

数式などは下記参照

シグモイド関数 - Wikipedia

ステップ関数とシグモイド関数の違い

jupyter notebookでステップ関数、シグモイド関数を定義・表示してみる。

まずはステップ関数

import numpy as np
import matplotlib.pylab as plt
%matplotlib inline

# ステップ関数
def step_function(x):
    # 配列の中で0より大きい値を1、それ以外を0で返す
    return np.array(x > 0, dtype=np.int)

x = np.arange(-5.0, 5.0, 0.1)
y = step_function(x)

plt.plot(x, y)
plt.ylim(-0.1, 1.1) # y軸の範囲を指定
plt.show()

下の図を見ても分かるように、ステップ関数は0を境として出力が0と1に切り替わっている。

f:id:taxa_program:20180530194224p:plain

続いてシグモイド関数

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

x = np.arange(-5.0, 5.0, 0.1)
y = sigmoid(x)

plt.plot(x, y)
plt.ylim(-0.1, 1.1) # y軸の範囲を指定
plt.show()

シグモイド関数は入力に対して連続的に出力が変化している。 f:id:taxa_program:20180530194601p:plain

簡単なニューラルネットワークの構築

本当に簡単な2層のニューラルネットワークを構築してみます。

X = np.array([1, 2])
W = np.array([[1, 3, 5], [2, 4, 6]])
Y = np.dot(X, W)

print(Y) # [ 5 11 17]

これのどこがニューラルネットワークなのか、と思われる方が多いと思いますが、入力Xに対して重みWが掛けられることにより出力Yが計算されています。中間層（隠れ層）はないですが、これもニューラルネットワークです。

実践的なニューラルネットワークの構築

続いて、少し本格的な3層ニューラルネットワークを構築します。

入力層から第1層への信号伝達

# 3層ニューラルネットワークの1層目を定義
X = np.array([1.0, 0.5]) # 入力
W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]]) # 重み
B1 = np.array([0.1, 0.2, 0.3]) # バイアス

# 入力変数に重みをかけ、バイアスを足す
# 重み付き和の計算
A1 = np.dot(X, W1) + B1

# 活性化関数にはシグモイド関数を利用する
Z1 = sigmoid(A1)

# 値の確認
print(A1) # [0.3 0.7 1.1]
print(Z1) # [0.57444252 0.66818777 0.75026011]

第1層から第2層への信号の伝達

# 第1層から第2層への信号の伝達
W2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
B2 = np.array([0.1, 0.2])

A2 = np.dot(Z1, W2) + B2
Z2 = sigmoid(A2)

# 値の確認
print(A2) # [0.51615984 1.21402696]
print(Z2) # [0.62624937 0.7710107 ]

第2層から出力層への信号の伝達

# 第2層から出力層への伝達

# 恒等関数の定義
def identity_function(x):
    return x

W3 = np.array([[0.1, 0.3], [0.2, 0.4]])
B3 = np.array([0.1, 0.2])

A3 = np.dot(Z2, W3) + B3
Y = identity_function(A3)

print(Y) # [0.31682708 0.69627909]

出力層で利用する活性化関数は、解く問題に応じて決定する必要がある。
回帰問題では恒等関数、2クラス分類問題ではシグモイド関数、多クラス分類ではソフトマックス関数を用いるのが一般的らしいです。

ここまでの実装をまとめてみます。

def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])

    return network

def forward(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)

    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)

    a3 = np.dot(z2, W3) + b3
    y = identity_function(a3)

    return y

network = init_network()
x = np.array([1.0, 0.5])
y = forward(network, x)
print(y) # [0.31682708 0.69627909]