Pandasとscikit-learnで基本的なクラスタリング分析やってみた
みなさんこんにちは!今回はこちらの記事を参考にPandasの取り扱い方を勉強したので作業メモします!
記事のサンプルコードを一通り通したあとにPandasのデータフレームにして3科目の合計点をカラムに追加したところまでです。
# pandasモジュールの読み込み import pandas as pd
# pandasのオブジェクトにして結合とデータフレームの概要の確認
pd_labels = pd.DataFrame(labels)
pd_features = pd.DataFrame(features)
df.info()
temp_df.info()
# カラムの結合 df_concat = pd.concat([pd_labels, pd_features], axis=1) df_concat
# カラムのヘッダが0,1,2,3という名前になっていたので、df_concat.columnsで一気に名前変更 df_concat.columns = ['Cluster', 'Japanese', 'Math', 'English'] df_concat
# 3科目の点数の合計値を計算して追加 df_concat["sum"] = df_concat[["Japanese","Math", "English"]].sum(axis=1)
次回はこのデータを使ってグラフとか出してみるテストする予定です。
それでは!