Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
実務で使えるOrange Data Miningの便利な機能
Search
ぶんちん
June 01, 2023
Technology
2.3k
0
Share
実務で使えるOrange Data Miningの便利な機能
ぶんちん
June 01, 2023
More Decks by ぶんちん
See All by ぶんちん
良書紹介06_こどもの統計学
bunnchinn3
0
24
良書紹介05_データ分析実務スキル検定 公式テキスト
bunnchinn3
0
31
“異常”検知プロジェクトの難しさ
bunnchinn3
0
27
LTのはじめかた(VRChat技術系界隈を想定)
bunnchinn3
0
76
良書紹介04_生命科学の実験デザイン
bunnchinn3
0
140
“成果”を出すためのプレゼン準備 プレゼン資料作成の前にやること
bunnchinn3
1
230
良書紹介03_ データ分析読解の技術
bunnchinn3
0
79
MVP未満からの成果獲得
bunnchinn3
0
87
個人計画とプロジェクト遂行の考え方
bunnchinn3
0
110
Other Decks in Technology
See All in Technology
みんなで作るAWS Tips 100連発 (FinOps編)
schwrzktz
1
120
サイバーフィジカル社会とは何か / What Is a Cyber-Physical Society?
ks91
PRO
0
160
Hello UUID
mimifuwacc
0
130
BigQuery × dbtでコスト削減した話
rightcode
0
110
試されDATA SAPPORO [LT]Claude Codeで「ゆっくりデータ分析」
ishikawa_satoru
0
380
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
4
23k
組織的なAI活用を阻む 最大のハードルは コンテキストデザインだった
ixbox
6
1.8k
New CBs New Challenges
ysuzuki
1
180
さくらのクラウドでつくるCloudNative Daysのオブザーバビリティ基盤
b1gb4by
0
160
CC Workflow Studio
seiyakobayashi
0
320
本番環境でPHPコードに触れずに「使われていないコード」を調べるにはどうしたらよいか?
egmc
2
290
Introduction to Sansan for Engineers / エンジニア向け会社紹介
sansan33
PRO
6
74k
Featured
See All Featured
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
110
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.4k
Deep Space Network (abreviated)
tonyrice
0
110
sira's awesome portfolio website redesign presentation
elsirapls
0
210
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
340
Reality Check: Gamification 10 Years Later
codingconduct
0
2.1k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
290
Code Reviewing Like a Champion
maltzj
528
40k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Believing is Seeing
oripsolob
1
110
Transcript
実務で使える Orange Data Miningの便利な機能 ぶんちん 2023年6月1日 データサイエンティスト集会 in VRC 1
自己紹介 ぶんちん 複合経営が特徴の企業(製造業)に所属 データ分析担当者だったが。。。 成果獲得を狙うと、 同じことに繰り返しで 飽きた 他者にやらせたら、
成果が増えるのでは 特に非専門家向けのDS教育 2
Orange Data Mining ビジュアルプログラミング的にデータ分析や機械学習モデル作成・評価が可能 公式HPから入手すれば無料で使用可能 UIが素晴らしい 初心者は勉強に使おう!
専門家は手抜き・教育に使おう! 3 https://orangedatamining.com/ GUI操作で分析・モデル作成が可能 基本的な使い方は前回紹介 スライド&動画公開してます
便利な機能紹介 Orangeには様々な便利な機能が実装されています。 今回はその中から、ちょっと見ただけでは気づきそうにないけど便利なものを中心に 紹介します。 4 • 入門者向け:誰もが使える便利な機能 • 中級者向け:機械学習についてある知識がある人向けの機能 •
アドオン :特定の領域に特化した追加機能
入門者向け 基本統計量の一括出力 散布図の便利機能×2 5
入門者向け:基本統計量の一括出力 6 ← colorを指定するとグラフに反映される 基本統計量を表示したいデータと接続するだけ
入門者向け:散布図の便利機能1 7 散布図を表示したいデータと接続、 縦軸と横軸の項目を指定するだけ これだけだと普通すぎて面白くないですよね?
入門者向け:散布図の便利機能1 8 表形式で 表示するwidget マウスで範囲指定 選択したデータを抽出 散布図どころかグラフのwidgeに限らず、 全てのデータ可視化機能からGUIでデータ選択が可能
入門者向け:散布図の便利機能1 9 widgetをつなぐ線を ダブルクリック! 接続を変えると 選択有無のフラグ情報を取得可能 この機能を使ってフィルターかければ、 マウス操作で異常値の除去などが可能 即時、他の分析結果に反映できる! 注意:恣意的なデータ選択はやめよう
入門者向け:散布図の便利機能2 10 散布図を表示したいデータと接続、縦軸と横軸の項目を指定するだけ これだけだと普通すぎて面白くないですよね? ①目的変数を設定 → ← ②押す
入門者向け:散布図の便利機能2 11 ※イイ感じ順 の具体的な内容 knn(k=10)で全ての特徴量の組み合わせでモデル作成・評価 精度(オレンジ色のバー)の良い順に表示する ③押す ↓ 目的変数をきれいに説明する 縦軸と横軸の組み合わせを
イイ感じ順※に表示 カテゴリ変数や相関係数には表れない相関を扱える 非専門家向けのデータ可視化に便利!
中級者向け モデル作成のデータの前処理 異常データの除去(異常検知) 12
中級者向け:モデル作成のデータ前処理 前回の資料、説明をシンプルにするため、適切に機械学習モデルを作成するため に恣意的なことをしていました。 13 特徴量の正規化しなくても問題ない 決定木系のアルゴリズムを選択 正規化をはじめ、便利なデータ前処理機能を説明します
中級者向け:モデル作成のデータ前処理 14 モデル作成前に実施したい前処理を 順に加えて設定するだけでOK! 適用アルゴリズムの左側に Preprocessのwidgetを接続
中級者向け:異常データの除去(異常検知) 15 異常検知アルゴリズムを使い、 一定比率の異常値を簡単に除去可能 前述のwidgetの接続を変えれば、 逆に異常データの抽出も可能 適用可能なアルゴリズム • One Class
SVM • Covariance Estimator • Local Outlier Factor • Isolation Forest
アドオン ad-on(追加機能)の導入方法 特徴量重要度の算出 16
アドオン:ad-on(追加機能)の導入方法 17 導入したいアドオンにチェック 必要に応じて導入してください あまり導入しすぎると起動が重くなるので注意 例えば • 機械学習モデルの説明 • 画像処理
• 自然言語 • 時系列分析 • 生存分析 • ネットワーク分析 など 様々な領域の手法に対応
アドオン:特徴量重要度の算出 18 Explainのad-on 補足)Permutation Importanceを使ってモデルがどの特徴量から学習したかを定量化する https://www.datarobot.com/jp/blog/permutation-importance/ 機械学習モデルの特徴量重要度を Permutation Importanceで評価
ご清聴、ありがとうございました。 他にも話したいネタがたくさんあります 超初心者向け機械学習の考え方 組織の基礎レベル向上 ノーコード分析の紹介 データ分析プロジェクトの進め方ネタ
あまり知られていない良書紹介 など 今後もLTでいろんなお話をしていきたいです。 どれにするかtwitterでアンケートを考えているので、投票してもらえると嬉しいです。 詳しい内容については、個別に対応するのでお気軽にお声がけください。 Twitter:@bunnchinn3 19