読者です 読者をやめる 読者になる 読者になる

IT系バンドマンの日常

備忘録やライフログなど

Pandasとscikit-learnで基本的なクラスタリング分析やってみた

みなさんこんにちは!今回はこちらの記事を参考にPandasの取り扱い方を勉強したので作業メモします!

qiita.com

記事のサンプルコードを一通り通したあとにPandasのデータフレームにして3科目の合計点をカラムに追加したところまでです。

# pandasモジュールの読み込み
import pandas as pd
# pandasのオブジェクトにして結合とデータフレームの概要の確認
pd_labels = pd.DataFrame(labels)
pd_features = pd.DataFrame(features)
df.info()
temp_df.info()
# カラムの結合
df_concat = pd.concat([pd_labels, pd_features], axis=1)
df_concat
# カラムのヘッダが0,1,2,3という名前になっていたので、df_concat.columnsで一気に名前変更
df_concat.columns = ['Cluster', 'Japanese', 'Math', 'English']
df_concat
# 3科目の点数の合計値を計算して追加
df_concat["sum"] = df_concat[["Japanese","Math", "English"]].sum(axis=1)

次回はこのデータを使ってグラフとか出してみるテストする予定です。

それでは!