第4章：線形SVM | 推薦システム研究室（RecSysLab）

公開日：2019-08-15
最終更新日：2019-08-26

skl04-0：準備

Aliceはこれまでにコーヒーを120杯試してきた．次のデータ`coffee.csv`はAliceのコーヒーに対する評価履歴データである．以下のデータを`data`ディレクトリに配置したうえで，次のコードを実行しよう．

coffee.csv：コーヒーに対する評価履歴データ（データIDid，酸味sourness {0-100}，苦味bitterness {0-100}，評価値rating {0=嫌い, 1=好き}）

>>> import numpy as np

>>> import pandas as pd

>>>

>>> # データの読込み

>>> coffee = pd.read_csv('data/coffee.csv', index_col=0)

>>>

>>> feature_names = np.array(coffee.columns[:-1])

>>> target_names = ['dislike', 'like']

>>>

>>> coffee_X = np.array(coffee[feature_names])

>>> coffee_y = np.array(coffee['rating'])

>>>

>>> # 全データをランダムに学習データ80%とテストデータ20%に分割

>>> n = len(coffee_X)

>>> m = int(n * 0.2)

>>> np.random.seed(0)

>>> indices = np.random.permutation(n)

>>> coffee_X_train = coffee_X[indices[:-m]]

>>> coffee_y_train = coffee_y[indices[:-m]]

>>> coffee_X_test = coffee_X[indices[-m:]]

>>> coffee_y_test = coffee_y[indices[-m:]]

skl04-1：SVCのインポート

`SVC`をインポートしよう．

難易度：★

ミッション	説明
1	`SVC`をインポートする．

skl04-2：SVCオブジェクト（線形カーネル）の生成

`SVC`オブジェクトを生成しよう．ここで，パラメタは`kernel='linear'`とする．

難易度：★★

ミッション	説明
1	`SVC()`コンストラクタを呼び出す．
2	`kernel`パラメタを指定する．
3	生成した`SVC`オブジェクトを`svc`とする．

skl04-3：学習

学習データを基に`svc`により学習しよう．

難易度：★★

ミッション	説明
1	`SVC.fit()`メソッドを使う．

skl04-4：予測

`svc`によりテストデータに対してラベルを予測しよう．

難易度：★★

ミッション	説明
1	`SVC.predict()`メソッドを使う．

skl04-5：予測精度の取得

`svc`のテストデータに対する予測精度を取得しよう．

難易度：★

ミッション	説明
1	`SVC.score()`メソッドを使う．

skl04-6：学習モデルの可視化

次のコードは`svc`による学習モデルを可視化するものである．次のコードを`skl04_plt.py`というファイル名で保存し，`python3`コマンドで実行しよう．

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from matplotlib.colors import ListedColormap

from sklearn.svm import SVC

# data

coffee = pd.read_csv('data/coffee.csv', index_col=0)

feature_names = np.array(coffee.columns[:-1])

target_names = ['dislike', 'like']

coffee_X = np.array(coffee[feature_names])

coffee_y = np.array(coffee['rating'])

# train

svc = SVC(kernel='linear')

svc.fit(coffee_X, coffee_y)

# plot

cmap_light = ListedColormap(['#CCCCFF', '#FFCCCC'])

cmap_dark = ListedColormap(['#8888FF', '#FF8888'])

x_min = 0

x_max = 100

y_min = 0

y_max = 100

xx, yy = np.mgrid[x_min:x_max:200j, y_min:y_max:200j]

Z = svc.decision_function(np.c_[xx.ravel(), yy.ravel()])

Z = Z.reshape(xx.shape)

plt.pcolormesh(xx, yy, Z, cmap=cmap_light)

plt.contour(xx, yy, Z, colors=['k', 'k', 'k'], linestyles=['--', '-', '--'], levels=[-.5, 0, .5])

plt.scatter(svc.support_vectors_[:, 0], svc.support_vectors_[:, 1], s=80, facecolors='none', edgecolors='k')

plt.scatter(coffee_X[:, 0], coffee_X[:, 1], c=coffee_y, cmap=cmap_dark, edgecolors='k')

plt.title("coffee")

plt.xlabel('sourness')

plt.ylabel('bitterness')

plt.xlim(xx.min(), xx.max())

plt.ylim(yy.min(), yy.max())

plt.show()

難易度：★

ミッション	説明
1	`python3`コマンドで`skl04_plt.py`を実行する．

Aliceはこれまでにコーヒーを120杯試してきた．次のデータcoffee.csvはAliceのコーヒーに対する評価履歴データである．以下のデータをdataディレクトリに配置したうえで，次のコードを実行しよう．

SVCをインポートしよう．

SVCオブジェクトを生成しよう．ここで，パラメタはkernel='linear'とする．

学習データを基にsvcにより学習しよう．

svcによりテストデータに対してラベルを予測しよう．

svcのテストデータに対する予測精度を取得しよう．

次のコードはsvcによる学習モデルを可視化するものである．次のコードをskl04_plt.pyというファイル名で保存し，python3コマンドで実行しよう．

Aliceはこれまでにコーヒーを120杯試してきた．次のデータ`coffee.csv`はAliceのコーヒーに対する評価履歴データである．以下のデータを`data`ディレクトリに配置したうえで，次のコードを実行しよう．

`SVC`をインポートしよう．

`SVC`オブジェクトを生成しよう．ここで，パラメタは`kernel='linear'`とする．

学習データを基に`svc`により学習しよう．

`svc`によりテストデータに対してラベルを予測しよう．

`svc`のテストデータに対する予測精度を取得しよう．

次のコードは`svc`による学習モデルを可視化するものである．次のコードを`skl04_plt.py`というファイル名で保存し，`python3`コマンドで実行しよう．