見出し画像

データ分析 初心者🔰Dataikuを使ってコンペに参加してみた

NECネッツエスアイ データ分析チームの杉と後藤です!
データ分析チームに異動して3か月、同期入社の私たちが参加した、SIGNATE「【第47回_Beginner限定コンペ】医療保険の費用帯予測」の様子を今回はご紹介します!


前回の記事はこちら!

参加目的


データ分析チームへ異動して、Dataikuという機械学習プラットフォームを業務で使う必要が出てきたため、勉強と力試しをするため、SIGNATEのコンペに参加することにしました。
また、今回はDataikuの強みを活かすため全てノーコードで実装するという縛りを自分たちに設けました笑

今回参加したコンペティション


今回は、Dataikuを使用してSIGNATEのBeginner限定コンペティションに挑戦しました!

Beginner限定コンペティションとは、未経験者または上位入賞経験の無いユーザが参加できるコンペティションで、使用する言語/ツールは自由です。
期間は1か月間で、その間に複数回結果を提出することができます。

今回のテーマは医療保険の費用帯を予測する問題です。
・医療保険契約者の情報から価格帯(charges)を3段階で予測する
・以下の7つの特徴量を使用

Dataikuとは


利用したプラットフォームをご紹介します。
Dataikuはデータソースへの接続からデータの準備・加工、AIや機械学習モデルの自動生成に加え、分析アプリケーションの開発と運用まで、一連の処理をひとつのソリューションとして統合させた、オールインワン AI・機械学習プラットフォームです。

今回行ったコンペについても以下のような簡単なフローをノーコードで構築できます。

▲実際に今回作成したフロー

まずはデータ確認


では早速、今回使用するデータの中身をDataikuで理解していきます。

Dataikuには、各カラムの分布図や箱ひげ図、平均や標準偏差などを即時に確認できるAnalyze機能や、相関係数など統計的指標を自動で作成してくれる機能があります。
これらの機能を使うことですぐに欠損値や外れ値などを確認することができます。

▲Analyze機能:データの分布や欠損値の確認ができます
▲統計機能:統計の知識が無くてもDataikuが相関性などの統計的指標を作成してくれます

データの前処理


Dataikuでは予測モデルを作成する前の、学習データの整形や加工を簡単に行うことができます。

データのクリーニング

ノーコードでデータの欠損値、外れ値、データ型の変換処理等ができます。

特徴量エンジニアリング

ユーザが新しい特徴量を作成したり、カテゴリカルデータの変換、数値データのスケーリングなどができます。

今回の取り組み

今回は、以下のデータ処理を行いました。

  1. カテゴリーデータのsex(性別)、smoker(喫煙)のカラムをOne-Hotエンコーディング※

  2. children(子供の数)の有無を二値化

※One-Hotエンコーディングとは
正しくデータを処理できるように、文字列で表現されるカテゴリを0と1の数値で表現する方法。
例として、「色」というカテゴリがあった場合、赤は[1, 0, 0]、青は[0, 1, 0]のように表す。

▲データの前処理:GUI上でデータの整形処理ができます

予測モデルの構築


Dataikuでは、様々な機械学習アルゴリズムをサポートしているため、プログラミングや機械学習に関する知識が無くても、簡単に予測モデルを構築することができます。

予測モデルの作成と学習

実施するタスク(回帰、分類予測)によってDataikuが自動で機械学習アルゴリズムを判別して提示してくれます。
スイッチを切り替えるだけで、複数の予測モデルを簡単に作ることができます。

▲機械学習アルゴリズムの選択

予測モデルのチューニング

選択した機械学習モデルに対して、GUI操作でパラメータのチューニングを行うことができます。
ハイパーパラメータの最適化を自動で行う機能があるため、簡単に最適なパラメータを選択することができます。。

▲パラメータの最適化

予測モデルの評価

作成した複数の予測モデルの精度を様々な評価指標で比較検証することができます。
また、作成した複数のモデルを選択してアンサンブル学習を行うことも可能です。

どの特徴量がモデルの精度に大きく寄与しているかも見ることができます。今回のモデルでは、喫煙の有無、年齢、BMIが医療保険の費用に大きく影響していることが分かりました。

結果


最終的に168人中、後藤が13位、杉が16位となり、Dataikuを使用することで、データ分析初心者でもノーコードで上位10%以内に入賞することができました🎉

コンペに参加して、Dataikuの強みがデータの前処理からモデル構築、検証までをGUI上で完結できる点だと改めて感じました。
特にモデル構築に関しては、初心者がコードで実装しようとすると躓くことが多いですが、クリック操作で様々なモデルを実装できるのは非常に便利だと思います。

今後の展望として、社内にDataikuを広く普及させ、全社的なデータ分析の取り組みや企業文化の定着を推し進めていきたいと考えています。


この記事が参加している募集

最後までお読みいただきありがとうございます!