Scikit.learn(Pythonの機械学習ライブラリ)に入っているベンチマークデータ「Boston housing」(ボストンの各地区の住宅価格のデータ)を扱う。
Step 1. データの読み込み
import os
import pandas as pd
from sklearn.datasets import load_boston
boston = load_boston()
boston = pd.DataFrame(boston.data, columns=boston.feature_names)
Step 2. データの確認
boston.head() %データの先頭の5行を表示する(各行はひとつの地区に対応)
各列(変数)の意味は以下のとおり(https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.names)
Step 3. ヒストグラムの描画
import matplotlib.pyplot as plt #matplot: グラフ作成ライブラリ
plt.title("per capita crime rate by town") #グラフのタイトルを設定(日本語は表示不可)
plt.hist(boston["CRIM"], color = "blue", rwidth = 0.9) #XのCRIMのヒストグラムを生成
plt.show() #生成したヒストグラムを表示
Step 4. 散布図(2変数)の描画
plt.title("lower status rate vs. crime rate") #グラフのタイトルを設定(日本語は表示不可)
plt.xlabel("lower status of the population (percent)") #横軸にラベルを設定
plt.ylabel("per capita crime rate by town") #縦軸にラベルを設定
plt.scatter(x = boston["LSTAT"], y = boston["CRIM"], marker = "o", color= "brown") #散布図を生成
plt.show() #生成した散布図を表示