Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
実務で使えるOrange Data Miningの便利な機能
Search
ぶんちん
June 01, 2023
Technology
0
1.2k
実務で使えるOrange Data Miningの便利な機能
ぶんちん
June 01, 2023
Tweet
Share
More Decks by ぶんちん
See All by ぶんちん
<事前告知> DS集会データ分析イベント VRChatイベントカレンダー
bunnchinn3
0
23
統計知識と実務のギャップ
bunnchinn3
0
42
製造業における品質不良の要因分析04_ツール選択の考え方
bunnchinn3
0
53
これまでLT振り返り 何が人気の話題?
bunnchinn3
0
67
製造業における品質不良の要因分析03_必要な知識の入手方法
bunnchinn3
0
61
製造業における品質不良の要因分析02_分析着手順の考え方
bunnchinn3
0
60
製造業における品質不良の要因分析01_ゴール設定
bunnchinn3
0
94
良書紹介02_Head First データ解析
bunnchinn3
0
53
良書紹介01_生命科学・生物工学のための間違いから学ぶ実践統計解析
bunnchinn3
0
74
Other Decks in Technology
See All in Technology
横断SREの立ち上げと、AWSセキュリティへの取り組みの軌跡
rvirus0817
3
4.1k
インフラコストとセキュリティ課題解決のためのリアーキテクチャリング / srekaigi2025
hgsgtk
3
3.8k
srekaigi2025-hajimete-ippo-aws
masakichieng
0
210
panicを深ぼってみる
kworkdev
PRO
1
120
トレードオフスライダーにおける品質について考えてみた
suzuki_tada
3
150
ココナラのセキュリティ組織の体制・役割・今後目指す世界
coconala_engineer
0
210
実践!生成AIのビジネス活用 / How to utilize Generative AI in your own business
gakumura
1
210
2025-01-24-SRETT11-OpenTofuについてそろそろ調べてみるか
masasuzu
0
180
オーティファイ会社紹介資料 / Autify Company Deck
autifyhq
10
120k
Agentic AI時代のプロダクトマネジメントことはじめ〜仮説検証編〜
masakazu178
0
280
一人から始めたSREチーム3年の歩み - 求められるスキルの変化とチームのあり方 - / The three-year journey of the SRE team, which started all by myself
vtryo
7
5.2k
大学教員が押さえておくべき生成 AI の基礎と活用例〜より効率的な教育のために〜
soh9834
1
180
Featured
See All Featured
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
For a Future-Friendly Web
brad_frost
176
9.5k
Code Review Best Practice
trishagee
65
17k
RailsConf 2023
tenderlove
29
980
Statistics for Hackers
jakevdp
797
220k
We Have a Design System, Now What?
morganepeng
51
7.4k
Being A Developer After 40
akosma
89
590k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
30
2.1k
Six Lessons from altMBA
skipperchong
27
3.6k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
39
1.9k
Transcript
実務で使える Orange Data Miningの便利な機能 ぶんちん 2023年6月1日 データサイエンティスト集会 in VRC 1
自己紹介 ぶんちん 複合経営が特徴の企業(製造業)に所属 データ分析担当者だったが。。。 成果獲得を狙うと、 同じことに繰り返しで 飽きた 他者にやらせたら、
成果が増えるのでは 特に非専門家向けのDS教育 2
Orange Data Mining ビジュアルプログラミング的にデータ分析や機械学習モデル作成・評価が可能 公式HPから入手すれば無料で使用可能 UIが素晴らしい 初心者は勉強に使おう!
専門家は手抜き・教育に使おう! 3 https://orangedatamining.com/ GUI操作で分析・モデル作成が可能 基本的な使い方は前回紹介 スライド&動画公開してます
便利な機能紹介 Orangeには様々な便利な機能が実装されています。 今回はその中から、ちょっと見ただけでは気づきそうにないけど便利なものを中心に 紹介します。 4 • 入門者向け:誰もが使える便利な機能 • 中級者向け:機械学習についてある知識がある人向けの機能 •
アドオン :特定の領域に特化した追加機能
入門者向け 基本統計量の一括出力 散布図の便利機能×2 5
入門者向け:基本統計量の一括出力 6 ← colorを指定するとグラフに反映される 基本統計量を表示したいデータと接続するだけ
入門者向け:散布図の便利機能1 7 散布図を表示したいデータと接続、 縦軸と横軸の項目を指定するだけ これだけだと普通すぎて面白くないですよね?
入門者向け:散布図の便利機能1 8 表形式で 表示するwidget マウスで範囲指定 選択したデータを抽出 散布図どころかグラフのwidgeに限らず、 全てのデータ可視化機能からGUIでデータ選択が可能
入門者向け:散布図の便利機能1 9 widgetをつなぐ線を ダブルクリック! 接続を変えると 選択有無のフラグ情報を取得可能 この機能を使ってフィルターかければ、 マウス操作で異常値の除去などが可能 即時、他の分析結果に反映できる! 注意:恣意的なデータ選択はやめよう
入門者向け:散布図の便利機能2 10 散布図を表示したいデータと接続、縦軸と横軸の項目を指定するだけ これだけだと普通すぎて面白くないですよね? ①目的変数を設定 → ← ②押す
入門者向け:散布図の便利機能2 11 ※イイ感じ順 の具体的な内容 knn(k=10)で全ての特徴量の組み合わせでモデル作成・評価 精度(オレンジ色のバー)の良い順に表示する ③押す ↓ 目的変数をきれいに説明する 縦軸と横軸の組み合わせを
イイ感じ順※に表示 カテゴリ変数や相関係数には表れない相関を扱える 非専門家向けのデータ可視化に便利!
中級者向け モデル作成のデータの前処理 異常データの除去(異常検知) 12
中級者向け:モデル作成のデータ前処理 前回の資料、説明をシンプルにするため、適切に機械学習モデルを作成するため に恣意的なことをしていました。 13 特徴量の正規化しなくても問題ない 決定木系のアルゴリズムを選択 正規化をはじめ、便利なデータ前処理機能を説明します
中級者向け:モデル作成のデータ前処理 14 モデル作成前に実施したい前処理を 順に加えて設定するだけでOK! 適用アルゴリズムの左側に Preprocessのwidgetを接続
中級者向け:異常データの除去(異常検知) 15 異常検知アルゴリズムを使い、 一定比率の異常値を簡単に除去可能 前述のwidgetの接続を変えれば、 逆に異常データの抽出も可能 適用可能なアルゴリズム • One Class
SVM • Covariance Estimator • Local Outlier Factor • Isolation Forest
アドオン ad-on(追加機能)の導入方法 特徴量重要度の算出 16
アドオン:ad-on(追加機能)の導入方法 17 導入したいアドオンにチェック 必要に応じて導入してください あまり導入しすぎると起動が重くなるので注意 例えば • 機械学習モデルの説明 • 画像処理
• 自然言語 • 時系列分析 • 生存分析 • ネットワーク分析 など 様々な領域の手法に対応
アドオン:特徴量重要度の算出 18 Explainのad-on 補足)Permutation Importanceを使ってモデルがどの特徴量から学習したかを定量化する https://www.datarobot.com/jp/blog/permutation-importance/ 機械学習モデルの特徴量重要度を Permutation Importanceで評価
ご清聴、ありがとうございました。 他にも話したいネタがたくさんあります 超初心者向け機械学習の考え方 組織の基礎レベル向上 ノーコード分析の紹介 データ分析プロジェクトの進め方ネタ
あまり知られていない良書紹介 など 今後もLTでいろんなお話をしていきたいです。 どれにするかtwitterでアンケートを考えているので、投票してもらえると嬉しいです。 詳しい内容については、個別に対応するのでお気軽にお声がけください。 Twitter:@bunnchinn3 19