Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CatData User's Manual

5c09f662722aedce68b28ccdb048e7f9?s=47 HumanomeLab
February 08, 2021

CatData User's Manual

CatDataはデータサイエンスのためのノーコード(プログラミング無し)プラットフォームです。データサイエンティストがデータからストーリーを見つけるまでに必要な可視化、AI構築、AI評価を一気通貫に実施できます。使い方は簡単。お手持ちのエクセルデータをブラウザを通じてアップロードするだけ。基本操作はクリックのみ。無料でスタートできます。データサイエンティスト不在の企業様にも、猫の手も借りたいデータサイエンス部門の方々にも、ご活用いただけます。
https://humanome.jp/activities/catdata/

5c09f662722aedce68b28ccdb048e7f9?s=128

HumanomeLab

February 08, 2021
Tweet

Transcript

  1. 株式会社ヒューマノーム研究所 https://humanome.jp https://catdata.ai/ Ver 1.1 初版:2021年2⽉10⽇ 最終改訂:2021年3⽉9⽇

  2. 1 Humanome CatData はこんなサービスです Humanome CatDataは、Excelデータに代表される「表データ」をプログラミングなしのカンタン操 作で可視化(データをグラフに加⼯し、⾒える化すること)し、あなた専⽤のAIを作ることができるツールです。 表データを使ったDX(デジタルトランスフォーメーション)に必要な環境をひとまとめにしました。ツールを 通して、誰でも数字がもつストーリーを⾒つけだせます。

  3. 2 Humanome CatData ではこんなことができます DXに向けたデータ活⽤を考えた時、⽋かせない「3ステップ」が全て完結します。 もちろん、全てのステップで必要な「データの絞り込み(前処理)」も実施できます。 Humanome CatDataは、通常使い分けが必要な BI(可視化) ツール

    と AIツール が ドッキング。 データの可視化 AIモデルの構築 AIモデルの業務導⼊ 1 3 2
  4. 簡易マニュアル Catdataの利⽤例を⽰します

  5. 4 ⽬次 1. 解析⽤サンプルデータの説明 2. アカウントの作成 1. アカウント作成 2. サインイン

    3. データの可視化・分析 1. 分布の確認とフィルタの作成 2. 可視化・分析 4. AI・教師あり機械学習の実施 1. モデルの作成 1. 分布の確認とフィルタの作成 2. モデルの作成 2. モデルの適⽤ 1. モデルの適⽤ 2. 結果の可視化 5. ご提供プラン 1. ご提供プラン 2. BasicからProへのアップグレード⽅法
  6. 解析⽤サンプルデータの説明 l サンプルデータの詳細と⽬的について説明します。

  7. 6 解析の⽬的 n データの可視化、機械学習(AI)のモデル作成、予測を実施します。 n 本マニュアルでは、3種の あやめ(Iris)の がくの⻑さ、がくの幅、花びらの⻑さ、 花びらの幅 が与えられたとき、そのあやめの種類(ここでは、0、1、2としま

    す)を予測するAIを作成します。 n 下記の流れでAIの作成およびその利⽤を⾏います。 1. あやめのデータの可視化、前処理 2. あやめの種類を予測するAIの作成 3. どの種類かわからないあやめに対し、作成したAIを⽤いて学名を予測
  8. 7 サンプルデータ n こちらのURL にあるZIPファイルを利⽤します。 n ZIPには以下の2個のファイルが⼊っています。 • iris_training.xlsx:あやめのデータ可視化や、あやめの品種を予測するAIの作成で利⽤するデータです •

    iris_test.xlsx:あやめの品種がわからないため、予測したい個体のデータです 0: Iris setosa 1: Iris versicolor 2: Iris virginica iris_3class_training.xlsx 0-2は、3種の あやめの 品種に対応しています
  9. アカウントの作成 l まず、CatDataにアカウントを作成します。 l CatDataの初回利⽤時のみ⾏ってください。

  10. 9 アカウント作成 n Webブラウザを起動し、https://catdata.ai/ にアクセスします。 n ログイン画⾯の「アカウントの作成」をクリックし、サインアップページへ移動してください。 n 必要情報を記⼊し、サインアップをクリックしてください。 n

    ⼊⼒したメールアドレスに認証メールが届くので、メールのリンクをクリックしてください。 1 2. 全項⽬記⼊ 3. クリック
  11. 10 サインイン n 登録したメールアドレス・パスワードを⼊⼒ n 「アカウントにサインイン」をクリック

  12. データの可視化・分析 l データを選択したり、分布を可視化したりすることで、 データからストーリーを考える分析が可能です

  13. 12 データの可視化・分析の流れ 可視化 データの可視化を実施し、データの⽰すストーリーを考えます。必要に応じて前のステップに戻り、データの選択を実施します。 選択と標準化 データの分布を確認し、必要に応じて可視化したいデータの選択やデータの単位の変更を実施します。 Visualization (可視化)の選択 これから⾏う操作が、データをVisualization (可視化)

    し、選択する操作であることを明⽰します。 データのアップロード エクセルやCSV(コンマ区切り)のデータをドラッグ・アンド・ドロップで CatDataにアップロードします
  14. 13 データの可視化・分析 n サンプルデータを⽤いた解析の⽬的 • あやめ(iris)120個体の がくの⻑さ、がくの幅、花弁の⻑さ、花弁の幅、種類(ここでは、0、1、2 とします)の情報を可視化します。 • 花弁の⻑さが特定の条件の個体を除去する⽅法を紹介します。

    • 花弁の⻑さ・幅の関係を可視化し、あやめの種類との関係を⾒出します。
  15. 14 データの可視化・分析 n データのアップロード • 「テーブルの新規作成」から、iris_training.xlsx をアップロードします 3. クリック 1

    2. ファイルアップロード
  16. 15 データの可視化・分析 n アップロードされたデータについて確認する • アップロードしたデータが間違っていないか確認をします。 • 特に、列名と数値に ずれが無いかどうか、各列の型(*)が意図したものか確認してください。 •

    特に⾚字の列は、型を⾃動で判別していたり、⽋損値が多い列なので、注意深く確認してください。 (*)数字や⽂字列のこと。CatDataは⾃動で判別します。 意図したものと間違っている場合、修正してください。 ここで決定した型は、後で修正できません。 1. 列の型を確認、修正 2. 「保存」をクリック
  17. 16 データの可視化・分析 n テーブルの利⽤⽬的として、可視化(Visualization)を選択する • ⼀番初めに、アップロードしたテーブルの利⽤⽬的を選択します。 • 機械学習を実施する前に、データの分布を⾒て、データの様⼦を知るために「可視化」を選択します。 • 可視化をすることで、AI作成が容易なデータか、あるいは、難しそうか、あたりをつけます。

    • データの絞り込み(前処理)をしつつ、意図しないデータの混⼊や、値に偏りが無いかどうかを確認します 1. 選択 2. 保存 3. テーブルが追加
  18. 17 データの可視化・分析 n テーブルを選択し、データの前処理を⾏うページへの移動する • テーブル⼀覧のページで、先程アップロードしたテーブルを選択します。 • 選択したテーブルがあっていることを確認してください。 • 問題なければ右上のボタンを押し、前処理のページに移動してください。

    選択したテーブルがあっていることを確認 テーブル選択 前処理を⾏うページ
  19. 18 データの可視化・分析 n 前処理:データの選択と正規化 (*)を実施する • 特に必要がなければ、このステップは省略して可視化に進めます。 • 下の例は、花びらの⻑さ (cm)

    が短いもの(⿊い枠で囲ったところ)を削除する操作(アクション)の作成例です。 • 花びらの⻑さの分布を⾒ると、明らかに短い集団が存在するので、除いてみました。 (*)平均0、分散1になるように単位の変更を実施すること。 ⼤きく単位が異なる変数が存在する場合に、 学習が難しくなることがあるため、必要に応じて実施する。 最⼩値を1.0から2.5に変更 分布を確認して範囲を指定 列名をクリック 花弁の⻑さが2.5〜6.9の個体を選択するアクションが追加
  20. 19 データの可視化・分析 n 前処理:データの選択と正規化を実施する(続き) • アクションが追加されただけでは、その処理は適⽤されません。「適⽤」ボタンのクリックで、追加したアクションを 適⽤します。 • 下の例では、全120個体中、花弁の⻑さ (cm)

    の値が2.5以上の80サンプルに絞ったので、連動してデータ全体の分布が 変わっています。サンプル数(⾏数)の変化は右下の窓で確認できます。 クリックすると、背景が 緑のアクションを適⽤ アクションを適⽤すると ⾏数が80⾏に
  21. 20 データの可視化・分析 n データの選択と正規化が終わったら、データの可視化を実施 前処理終了後、確認を押すと、前処理の適⽤結果が現れます。問題なければ可視化に進みます。 データの前処理画⾯ 前処理結果の確認 可視化のページ

  22. 21 データの可視化・分析 n データの可視化を実施 • 列ごとの分布や、列の間の関係を可視化します。はじめは⼀番左の列の分布が現れます。 • Column2に別の列を指定することで散布図などの分布が描画できます。 • 散布図を描画の上、⾊で「種類」を指定すると、種類別(緑:1、⻩⾊:2)に、分布が異なることがわかり、品種の区

    別をする機械学習モデルは⽐較的容易に作成できると考えられます(次ページ参照)。⼀⽅、種ごとに分布がまと まっておらず、混在している場合には、モデル作成も困難なことが多くなります。 列名を指定 列1: 花弁の⻑さ (cm) 列2: 花びらの幅 (cm) ⾊: 種類
  23. 22 データの可視化・分析 n あやめのデータを⽤いた可視化の利⽤例 • 列1:花弁の⻑さ (cm) • 列2:花弁の幅 (cm)

    • ⾊:種名を選択 • ラベル:個体番号 グラフの右上には種名2の あやめが分布。 花弁の⼤きさで、あやめの 種1と2は判別できそうだと 判断できます。 着⽬した点の上にマウスを移 動すると、どの個体のデータ か、⼀⽬瞭然に分かります
  24. 23 データの可視化・分析 n 2変数では区別がつかず、3変数以上の関係を ⾒る必要がある場合もあります。この時には、 次元削減が有⽤です。 図は、 「⾊に使った列を除外する」機能を利⽤し、がくの ⻑さ、がくの幅、花弁の⻑さ、花弁の幅の情報を次元削 減した結果です。あやめの種類で配⾊しました。

    あやめの種類ごとにグループが分かれています。がくと花 弁の⼤きさは、種類により異なる傾向があることがわか ります。 1: Iris versicolor グループ 2: Iris virginica グループ
  25. AIモデル(機械学習モデル)の作成 l 実際にAIモデルを作成しましょう l 1. 予測モデルの作成 l 2. モデルの適⽤

  26. 25 予測モデルの作成 n データを与えられたとき、そのデータの属するクラス(グループ)を予測するモ デルを作成します。 n 本マニュアルでは、あやめ(iris)の がくの⻑さ、がくの幅、花びらの⻑さ、花びら の幅 が与えられたとき、そのあやめの種類(ここでは、0、1、2とします)を予

    測するAIを作成します。 n 下記の流れでAIの作成およびその利⽤を⾏います。 1. あやめの種類を予測するAIの作成 2. どの種類かわからないあやめに対し、作成したAIを⽤いて種類を予測
  27. 26 予測モデルの作成の流れ モデルの学習と評価 様々な機械学習モデルを利⽤して、モデルを学習します。また、学習結果を評価します。 前処理:選択と標準化 データの分布を確認し、必要に応じてモデルの学習に利⽤したいデータの選択や⽋損値の補間を実施します。 Training (訓練)の選択 これから⾏う操作が、モデルの訓練であることを明⽰します。 データのアップロード

    エクセルやCSV(コンマ区切り)のデータをドラッグ・アンド・ドロップで CatDataにアップロードします
  28. 27 予測モデルの作成 n 可視化同様、iris_train.xlsx をアップロードします n テーブルのタスク選択で、「学習」を選択します(右図) n 前処理の⽅法は可視化と同じです •

    あやめのデータを⽤いる場合、前処理は不要です n ⼀度可視化して、アップロードしたデータに間違いが無いかを確認してください データの前処理画⾯ 前処理結果の確認
  29. 28 予測モデルの作成 n 「モデルの新規作成」で、新しいモデルの作成を⾏います n 様々な設定項⽬がありますが(*)、今回は最も重要な以下の項⽬だけ指定しましょう • 予測する値: 予測したい列を指定します。ここでは、”種類”を指定します。 •

    ⼿法: 構築する機械学習モデルを選択します。ここではRandomForest を指定しましょう。 n 「開始」を押して、学習を開始する。 データから、AIで予測する列を選択。 今回はあやめの種類を予測するため 「種類」を選択。 (*)様々な設定項⽬から⾼品質なモデルを作成できる設定を ⾃動で作成するには「⾃動的にパラメータを調整する」を オンにしてください。この機能はProへのアップグレードが必要です
  30. 29 予測モデルの作成 n 学習が開始すると、学習したモデル⼀覧に新たな⾏が加わります。 n 学習が終了すると、ステータスが実⾏中から完了に変化。「評価結果」ボタンが押せる ようになります。同時に評価スコアも表⽰されます。 学習中 学習後 AIの予測精度を評価結果へ移動

  31. 30 予測モデルの作成 n 評価結果をクリックすると、学習したモデルの評価結果の詳細が現れます。予測値の型や、利⽤ した学習⼿法によって、表⽰される内容は異なります。 n 予測値の型 • カテゴリの場合、混同⾏列およびROCカーブ (カテゴリが2個の場合のみ)が表⽰されます。あやめの種類は、「種類」と

    いうカテゴリのため、こちらに相当します。 • 数値のときは、実測値と予測値を⽐較する散布図が表⽰されます。 n 学習⼿法 • Random Forest: 予測に寄与した変数と重み • SVM: 追加で表⽰される図なし • LASSO: 予測に寄与した変数と重み(回帰のみ) • Neural Network: 学習曲線 それぞれの詳細は、別途マニュアルに記載予定。 内容は、機械学習の書籍等を参考にしてください。
  32. 31 予測モデルの適⽤の流れ モデルの学習と評価 様々な機械学習モデルを利⽤して、モデルを学習します。また、学習結果を評価します。 前処理:選択と標準化 適⽤したいモデルの学習時に実施した前処理と同じ前処理を実施します。 Prediction (予測) の選択 これから⾏う操作が、既存のモデルを適⽤して値を予測する操作であることを明⽰します。

    データのアップロード エクセルやCSV(コンマ区切り)のデータをドラッグ・アンド・ドロップで CatDataにアップロードします
  33. 32 予測モデルの適⽤ n Proプランの⽅は、テーブル数の上限が50個のため、本ページはスキップしてください。 n Basicプランの⽅は、可視化⽤のテーブルを削除してください。 • Basicプランの場合、テーブルの上限が2個です。 • 現時点でテーブル数の上限に達しているため、予測⽤のテーブルを新規に作成することができません。本

    マニュアルの最初に作成した、可視化⽤のテーブルを下記の⼿順で削除してください。 テーブル⼀覧から削除するテーブルを選択 選択したテーブルを削除
  34. 33 予測モデルの適⽤ n あやめの種類を予測したいデータアップロード • iris_test.xlsxをアップロードしてください。 • 今まで使っていたiris_training.xlsx ではないので注意! •

    今までのデータとは独⽴した新規のデータです。 • このデータで、がくの⻑さや花弁の幅の情報から、あやめ の種類を予測してみます。 • アップロード⼿順は学習タスクと同様です。 • テーブルのタスク選択で、「予測」を選択してください。 n 予測タスクでは、前処理の⾏程はありません。AIを学 習したときと同じ前処理が⾃動で適⽤されます。
  35. 34 予測モデルの適⽤ n 予測モデルの適⽤⽅法 • 適⽤したいモデルを学習したテーブルを選択します。 • 画⾯がモデル⼀覧に変わります。適⽤したいモデルを選択し、「予測の開始」をクリックします。 拡⼤ 学習したモデル⼀覧の表⽰

    1. テーブル選択 2. モデル選択
  36. 35 予測モデルの適⽤ 2. モデル選択 1⾏追加 予測結果の確認 n 予測モデルの適⽤⽅法 • 予測が開始すると、予測結果に新たな⾏が加わります。

    • 予測が終了すると、状態が実⾏中から終了に変化します。
  37. 36 予測モデルの適⽤ 「予測結果」をクリック 予測結果 n 予測結果の確認⽅法 • 予測結果が左の列に現れ、ハイライトされます。 • 可視化のタスクと同様に、「可視化」をクリックする事で、予測結果とデータの関連をプロットして調

    べることができます。
  38. 37 予測モデルの適⽤ n 正解がわかっているデータに対する予測 • 今回のテストデータには、正解の種類が存在しています。正解が分かっている場合には、この正解を⽤ いてモデルの予測精度評価が可能です。 • 「予測結果と⽐較したい列を選択」を選択して予測を実施することで、予測精度を計算できます。 あやめのデータで正解を表す

    「種類」列を選択する。 選択した列の分布が表⽰される。
  39. 38 予測モデルの適⽤ n 予測モデルの適⽤⽅法 • 答えがわからないデータに対する予測の実⾏⽅法と⼿順は同じです。 拡⼤ 学習したモデル⼀覧の表⽰ 1. テーブル選択

    2. モデル選択
  40. 39 予測モデルの適⽤ n 予測結果の確認⽅法 • 「予測結果」をクリックすることで、予測結果を確認できます。 「予測結果」をクリック

  41. 40 予測モデルの適⽤ n 「予測結果と⽐較したい列を選択」の機能を利⽤した場合、「評価」をクリック すると、予測結果と正解値を⽐較できます。 評価をクリック 実際のあやめの種類 AIが予測した あやめの種類 0:

    Iris-setosaのあやめ10個体は、 正しく0:Iris-setoosaと予測されている
  42. 41 予測モデルの適⽤ n 評価結果の利⽤例 • AIが0: Iris-setosaと予測したあやめ10個体は、全て0: Iris- setosaであり、予測結果が正しい(図の⾚⾊の四⾓) •

    2: Iris-virginicaのあやめ1個体は、AIは1: Iris-versicolorに 誤分類(緑⾊の四⾓) • 多少の誤分類はあるが、AIはほぼ全てのあやめを正しい種 類に予測。構築したAIの精度が良いことが確認できる。 実際のあやめの種類 AIが予測した あやめの種類 0: Iris-setosaのあやめ10個体は、 正しく0:Iris-setosaと予測されている
  43. ご提供プラン

  44. 43 Humanome CatData は無料でスタートできます ご提供プラン いずれのプランでも、可視化、学習、予測の全てがご利⽤いただけます。 プラン Basic Pro Business

    料⾦ 無料 9,800円/⽉ (税込) お問い合わせください 対象 まずは試してみたい⽅向け 本格的に使いたい⽅向け 構築したAIを実運⽤したい⽅向け 表データ(CSV, エクセル形式など) のアップロード ✔ (最⼤2個まで同時保存) ✔ (最⼤50個まで同時保存) ✔ データの可視化 ✔ ✔ ✔ AIモデルの学習 ✔(同時学習数1個まで) ✔(同時学習数5個まで) ✔ 学習したモデルの保存 ✔(表あたり最⼤1個) ✔(表あたり最⼤50個) ✔ 学習したモデルを利⽤した予測 ✔(表あたり最⼤1個) ✔(表あたり最⼤50個) ✔ 複数テーブルの結合 ✔ ✔ メールサポート ✔ ✔ API連携 ✔ プランによって扱える表の⼤きさや、学習⽅式にも制限がございます。詳細はCatData のホームページをご覧ください
  45. 44 BasicからProへのアップグレード⽅法 (1/2) ▪ テーブル⼀覧の右上にある、ユーザ名 (アカウントで使⽤しているemail)を クリックします。 ▪ ユーザ情報をクリックすると、アカウ ント情報が表⽰されます。

    ▪ アカウント情報が表⽰されたら、 「現在のプラン」の右に表⽰されてい る「Proプランへアップグレード」の ボタンを押してください。 1. ユーザ名をクリック 2. 「アカウント情報」をクリック 3. 「Proプランへアップグレード」 をクリック
  46. 45 BasicからProへのアップグレード⽅法 (2/2) ▪ 表⽰されている⽂⾯をご確認の上、 「下記に同意した上でProプランに申 し込む」ボタンを押します。 ▪ 「⽀払い情報」のボックスが表⽰され ましたら、クレジットカード情報をご

    ⼊⼒いただきます。⼊⼒後、「カード 情報を⼊⼒する」をクリックして、 カード情報を登録します。 ▪ 「Proプランへのお申し込みありがと うございます」という表⽰が出ました ら完了です。「閉じる」ボタンを押し てください。 4. 「Proプランに申し込む」をクリック 5. カード情報をご入力いた だき、「カード情報を入力 する」をクリック 6. 「閉じる」を クリック