Upgrade to Pro — share decks privately, control downloads, hide ads and more …

講演③大規模時系列データをハンドリングする 国立研究開発法人産業技術総合研究所 本田 智則 様...

講演③大規模時系列データをハンドリングする 国立研究開発法人産業技術総合研究所 本田 智則 様_SPSSユーザーイベント2022春

2022/05/20に開催されたSPSS オンラインユーザーイベントのご講演
国立研究開発法人産業技術総合研究所 本田 智則 様
「講演③大規模時系列データをハンドリングする」
のスライド資料(公開版)です

JPSPSS

May 27, 2022
Tweet

More Decks by JPSPSS

Other Decks in Technology

Transcript

  1. 産業技術総合研究所 ゼロエミッション国際共同研究センター(GZR) GZRの役割 政府の革新的環境イノベーション戦略の下、 ゼロエミッション化を実現可能な技術開発・評価研究を実施 センター長 吉野彰 博士(2019年ノーベル化学賞受賞) 主な研究テーマ •

    AI・IoTを利用した大規模データの解析 – 電⼒融通などを⽤いた効率的なエネルギー利⽤の社会制度設計 – 家庭部⾨の⾼度な省エネ化を実現するためのライフスタイル解析 • エネルギーモデルを用いた長期シナリオの検討 – CO2⼤幅削減を実現可能な技術導⼊シナリオの策定 国内に3つある特定研究開発法人の1つ。理研とな らび国内最大級の公的研究機関。 ・ 研究職員:2331人(合計9186人,2021年7月時点) ゼロエミッション国際共同研究センター(GZR)
  2. 研究を支えるインフラ:SPSS Modeler • 大学院の学生時代(20年ほどまえ)からSPSS Modelerを利 用して研究を実施。 • 我々のチームが行っている研究のほぼ全ての分析において、 SPSS Modelerを利用。

    • 論文や特許出願における基礎データの計算から検定、デー タハンドリングに関してはほぼ全てがModelerのストリームと して蓄積され、複数の研究者が相互に利用。 6
  3. 7

  4. 8 集合知解析基盤(GAMA) データに基づく社会制度設計 HEMSデータ等の解析に特化したAI・ビッグデータ解析用スーパーコンピュータ 集合知解析基盤(GAMA)を開発・導入。 【特徴】大量の時系列データ。センサー データには欠損等が多く含まれている。 【課題】量が多く単純な集計はもちろん、 そこから意味のある知見を導くことも困難。 IoTによってもたらされるビッグデータ

    GAMAでは、バックエンドDBとし てIBM Netezza、フロントエンド ツールの一つとしてSPSS Modeler を採⽤ 2021年に⼤規模時系列データ・AI解析⽤小型 スパコンを導⼊ ノーコードで、数百億行に上る多 様なIoTセンサデータを容易に分 析可能なシステムとして運⽤。
  5. 2015年以降データ企業との連携を通じたデータ収集を開始し、 現在住宅メーカーや家電メーカー等からデータ提供を受けて 研究を実施。 • 住宅電力ビッグデータ ✓ 約9万世帯の住宅の仕様・属性情報 ✓ 述べ20億時間を超える発電・蓄電・消費電力データ ✓

    世帯単位データのため、詳細なライフスタイル分析が可能 ✓ 太陽光発電システムの故障予測アルゴリズム開発 • 空調機稼働実績データ ✓ 約10万台の家庭用空調機の1分単位稼働データ ✓ 空調機の利用実態や故障予測に応用 家庭消費電力ビッグデータの活用 12 世界的にも、研究利用可能な家庭消費 住宅電力ビッグデータとしては最大規模
  6. 住宅の高断熱化と消費エネルギー量の関係 ビッグデータを使うことで⾼い解像度で分析し、 「常識」を覆す新たな発見に寄与 ⾼断熱 空調エネルギー 快適性ニーズの発露 空調範囲の拡⼤ 現状の期待 n =

    817 n = 932 ZEH普及推進事業に見られる様に、住宅の断熱性能向上は住宅消費エネルギー量削減 対策として期待されている。 年間1日あたり消費電⼒量 (オール電化住宅、属性調整済) 20.26kWh/日 20.17kWh/日 𝑄値 ≤ 1.0 𝑄値 ≅ 2.0 生活者の非経済的価値判断に基づく意思決定 14
  7. SPSS Modelerでどの程度のサイズのデータまでハンドリングできる? 16 ~10万レコード データサイズ 100万レコード 1000万レコード 1億レコード 10億レコード~ +汎⽤DB

    注:こちらの内容は本田個人のこれまでの経験に基づいた感覚値です。 +Netezza ~数十万レコード ~数千万レコード ~数億レコード ~数百億レコード (Base+1) 値は実⽤上の感覚的限界レコード数
  8. SPSS Modelerでビッグデータ(20億データ以上)を扱う場合 17 Tips use_bigint_for_count, N use_bigint_for_count, Y C:¥Program Files¥IBM¥SPSS¥Modeler¥18.3¥config¥options.cfg

    SPSS Modelerで21億行(231 - 1)以上のデータを取り扱う場合、そのままでは適切に処理 ができない。 117億行をカウント NULLになってしまう 正しく117億行をカウントできた! SPSS Modelerで20億行以上のデータを取り扱う場合、そのままでは集計等に失敗する。 117億行をカウント
  9. SQL Pushbackの活用 18 +汎⽤DB ~数億レコード • SPSS Modelerを使ってビッグデータを解析する上では、SQL Pushbackの活⽤が不可欠 •

    SQL Pushbackとはひとことで言えば、Modelerをフロントエンド として、SQL文をModelerが自動生成し、演算をDBサーバ側で行 わせる機能 • SQL文を全く知らない&DBをほとんど使ったことがない分析者 でも容易にDBを利用できる SQL Pushbackに対応するDB • IBM DB2 • Amazon Redshift • Apache Impala • Microsoft SQL Server • Oracle • PostgreSQL • Snowflake 他
  10. SQL Pushbackによる高速化 19 CSVから1000万行を読んでグラフ化 DBから1000万行を読んでグラフ化 SELECT T1."PrecName" AS "PrecName",T0."月" AS

    "月 ",AVG(T0."気温") AS "気温_Mean" FROM "T_サンプル データ" T0,"public"."T_観測所" T1 WHERE (T0."BlockNo" = T1."BlockNo") GROUP BY T1."PrecName",T0."月" 約25倍⾼速 自動生成されたSQL文
  11. SQL Pushbackによる高速化 29 CSVから1000万行を読んでグラフ化 DBから1000万行を読んでグラフ化 SELECT T1."PrecName" AS "PrecName",T0."月" AS

    "月 ",AVG(T0."気温") AS "気温_Mean" FROM "T_サンプル データ" T0,"public"."T_観測所" T1 WHERE (T0."BlockNo" = T1."BlockNo") GROUP BY T1."PrecName",T0."月" 約25倍⾼速 自動生成されたSQL文