lightgbmによる分析

データ分析

はじめに

本記事ではデータ分析コンペでよく使用される手法であるlightgbmによる分析を行っていく。

またlightgbmによる分析が本記事の目的であるため特徴量の生成・選定などは行っていませんのでご了承ください。

使用されるデータについてはSIGNATEに記載されている【練習問題】ガラスの分類(https://signate.jp/competitions/125)をしようしております。

ライブラリのインポート

1行目についてはファイルの読み込みを行うたっめのライブラリ、2~3行目についてはデータを分割するためのライブラリとlightgbmを使用するためのライブラリ、4~6行目については本分析の評価を行うためのライブラリとなっております。

データの読み込み・確認

データの分割

今回はxの値として、RI, Na, Mg, Al, Si, K, Ca, Ba, Feの値をすべて用います。yの値は分類の対象となるTypeを用います。

モデル構築と予測

モデルの評価

本記事では本モデルの評価方法として正解率, 適合率, 再現率, F1値を用いさせていただいています。

提出用ファイルの作成

提出ファイルを提出したところ

0.5887850と非常に正解率の低い結果となりました。評価時の正解率よりも大きく正解率が低かった原因としてはxの値にすべての値を用いてしまったため過学習が起きてしまっているためだと考えられます。

タイトルとURLをコピーしました