【10分で分かる】機械学習に大事な不均衡データの対処法と評価方法を解説!

Описание к видео 【10分で分かる】機械学習に大事な不均衡データの対処法と評価方法を解説!

機械学習入門に必要な知識と勉強方法はこちら
https://toukei-lab.com/machine-learni...

実データを扱っていると度々現れるのが不均衡データ!

不均衡データとはデータの比率に偏りがあるもの。

金融取引の不正利用データやメールのCVデータなど、母数が大量にありその中で該当する正例が非常に少ないケースはよくあります。
そんな不均衡データを通常通り分析してしまうと少々不都合があるんです。

この動画では、そんな不均衡データについて3つのパートに分けて解説していきます!
1.不均衡データとは
2.不均衡データの扱い方と対処法
3.不均衡データにおける評価指標

【視聴ガイド】
01:08 不均衡データとは
02:48 不均衡データの扱い方と対処法
03:12 アンダーサンプリング
03:30 オーバーサンプリング
05:00 重み付け
05:40 異常検知問題として扱う
06:12 不均衡データにおける評価指標
07:13 適合率
07:40 再現率

【この動画で覚えて帰って欲しいコト】
・不均衡データとは「データ構造に偏りがあるデータ群」のことを指し、世の中のデータは不均衡データになっているものが多い
・不均衡データを解消するためにはサンプル数を調整したりサンプルに重み付けをしたりする
・不均衡データの評価には適合率や再現率を使うことが多い

サイトの方でもっと踏み込んだ説明やプログラミング実装をおこなっています。URLを記載しておくのでぜひのぞいてみてください!

■スタビジ
スタビジは「データサイエンスをもっと身近なものに!」をモットーにデータサイエンスの面白さを発信しているチャンネルです。
チャンネル登録はこちら↓
   / @aiby8596  

■サイト(データサイエンスを発信するメディア)※旧:統計ラボ
https://toukei-lab.com/

・不均衡データ
https://toukei-lab.com/imbalance-data...
・k近傍法
https://toukei-lab.com/%ef%bd%8b%e8%b...
・XGBoost
https://toukei-lab.com/xgboost

■関連動画
・機械学習入門
   • 【超入門】機械学習をビジネスの例も出しながら解説していく!  

■「コスパよくデータサイエンスを学べるスクール」スタビジアカデミー
https://toukei-lab.com/achademy

■Twitterアカウント
ウマたん@スタビジ:  / statistics1012  

■私が講師のUdemy講座
以下の記事に私が講師を務めるAIやデータサイエンス関連の講座一覧をまとめています!
https://toukei-lab.com/my-udemy-course
この記事内限定で全ての講座が安くなる講師クーポン(最大94%OFF!)を公開していますのでご受講の際はぜひお使いください!

■出版書籍
・俺たちひよっこデータサイエンティストが世界を変える
https://amzn.to/36XbMFJ
・【入門】Pythonを覚えてエリートリーマンへ!落ちこぼれリーマンの逆転劇:https://amzn.to/31drMyU
・おばあちゃんがWebマーケティングを勉強して雑貨屋をV字回復!
https://amzn.to/3vG3tqC
・漫画で分かるデジタルマーケティング ✕ データ分析
https://amzn.to/44iT84Q
・データサイエンス大全 -シンプルにわかる49の用語と13の実践
https://amzn.to/3mFzhwG

Комментарии

Информация по комментариям в разработке