Upgrade to Pro — share decks privately, control downloads, hide ads and more …

関数データ解析への招待

 関数データ解析への招待

2023/04/26に開催されたザッピングセミナーでの講演資料です。当日の質問内容に対する回答を一部追記しています。

Hidetoshi Matsui

April 26, 2023
Tweet

More Decks by Hidetoshi Matsui

Other Decks in Research

Transcript

  1. 関数データ解析への招待
    滋賀大学データサイエンス学部
    松井 秀俊
    E-mail: [email protected]
    第13回ザッピングセミナー
    2023.04.24

    View Slide

  2. 自己紹介
    • 松井秀俊(まついひでとし)
    • 経歴:
    – 2009.03 九州大学大学院数理学府博士後期課程修了
    博士(機能数理学)
    – 2009.04 株式会社ニコンシステム 数理解析研究室
    – 2012.03 九州大学大学院数理学研究院 助教
    – 2016.04 滋賀大学データサイエンス教育研究センター 准教授
    – 2016.10 科学技術振興機構 さきがけ研究員 (兼任, ~2020.03)
    「情報協働栽培」領域
    – 2017.04 滋賀大学データサイエンス学部 准教授
    • 専門分野:
    統計的モデリング・関数データ解析・スパース推定
    2
    スパース推定法
    による
    統計モデリング
    (共立出版)
    多変量解析
    (学術図書出版)
    2023.03出版
    統計モデルと推測
    (講談社
    サイエンティフィク)
    執筆に携わった書籍(一部)

    View Slide

  3. 目次
    • 関数データ解析の概要
    – どういう形式のデータに対してどういうことができるか・文献紹介
    • 関数データ解析の事例紹介
    – さまざまな分野のデータに対する分析事例紹介
    • 関数回帰モデルの推定
    – 具体的な実装方法を,関数回帰モデルを例に紹介(数式多め)
    • 関数データ解析手法ザッピング
    – マニアックな発展的な手法とその応用例を紹介
    3

    View Slide

  4. 4
    • 観測個体(左の例では都市)それぞれが
    時間等の経過に伴い繰り返し計測された
    形式のデータを,経時測定データという
    • 気温のようなデータは,本来は観測時点
    だけではなく,連続的に存在しているはず
    • そこで,各個体を時間の関数として表し
    観測データ(ベクトルデータ)の代わりに
    関数をデータとして扱おう
    Observed
    data
    例:3都市の1年間における
    月別平均気温
    関数データ解析 (Functional Data Analysis; FDA)
    ※ Food and Drug Administration
    ではない
    Functional
    data
    那覇
    東京
    札幌

    View Slide

  5. 5
    • 各個体を関数化処理することで得られる
    関数を関数データといい,関数データ集合
    を対象とした分析手法・理論を総称して
    関数データ解析という
    • 分かりやすさのために
    「時間の」関数データという想定で説明
    することが多いが,前後関係を持つもので
    あれば何の関数でも適用可能
    ✓ 深さ・位置・波長 etc.
    ✓ 位置(緯度経度)の場合は曲面データ
    になる
    Observed
    data
    例:3都市の1年間における
    月別平均気温
    Functional
    data
    那覇
    東京
    札幌
    関数データ解析 (Functional Data Analysis; FDA)
    ※ Food and Drug Administration
    ではない

    View Slide

  6. Ramsay & Silverman
    (1997, 2005)
    提唱者らによる書籍
    実践的な方法論を
    多く掲載
    参考書など
    • 和書では次の書籍の一部に記載
    – 辻谷將明,竹澤邦夫 (2015). マシンラーニング 第2版 (Rで学ぶデータサイエンス),共立出版.
    – 福水健次 (2010). カーネル法入門ー正定値カーネルによるデータ解析,朝倉書店.
    – 鈴木譲 (2021). 機械学習のためのカーネル100問,共立出版.
    • 関数データ解析の和文サーベイ論文
    – 松井(2019) .関数データに基づく統計的モデリング,統計数理 67 (1) 73-96.
    6
    Kokoszka & Reimherr
    (2017)
    関数データ解析の
    基本的な方法を掲載
    Rのコードあり
    Hsing & Eubank
    (2015)
    関数データ解析に
    関する理論的性質を
    詳しく紹介
    Ramsay, Hooker &
    Graves (2009)
    RやMatlabコード掲載
    手を動かしながら
    勉強できる
    Horvath & Kokoszka
    (2013)
    関数データの検定や
    時系列・空間データ
    等の分析法を掲載

    View Slide

  7. ライブラリ
    • fda:データの関数化や関数回帰分析,関数主成分分析を実装
    • refund:多様な種類の関数回帰モデルを実装(解説ページ)
    • fdANOVA:関数データに対する仮説検定を実装(解説ページ)
    ・・・ほか多数
    • CRAN Task View:関数データ解析関連のRパッケージ一覧
    • scikit-fda:関数データ解析に関する手法を網羅的に実装
    • FDApy:python内で処理する関数データのクラスを実装
    7

    View Slide

  8. 経時測定データの例1
    子供の身長の推移
    • 数人の子供の身長を
    1歳から18歳まで毎年計測したデータ
    • 2~8歳までは年1回,
    それ以外は年2回計測
    ⇒計測時間が不均一
    • 計測時間の情報を
    取り入れた解析をするには?
    8
    年齢


    “growth” by R package “fda”

    View Slide

  9. 経時測定データの例1
    子供の身長の推移
    • 数人の子供の身長を
    1歳から18歳まで毎年計測したデータ
    • 2~8歳までは年1回,
    それ以外は年2回計測
    ⇒計測時間が不均一
    • 計測時間の情報を
    取り入れた解析をするには?
    9
    年齢


    “growth” by R package “fda”

    View Slide

  10. 経時測定データの例2
    病状の経時変化
    • ある細胞が破壊される病気の患者数名に対して
    数回に渡り通院してもらい
    細胞の血中濃度を測定
    • 患者ごとに通院時点や通院回数が異なるため
    古典的な多変量解析を直接適用することは困難
    • 喫煙や性別などの情報と
    細胞濃度との関係をどうモデル化する?
    10
    患者 時点 喫煙 性別 濃度
    1 0 無 0 45
    1 1 無 0 37
    : : : : :
    1 10 無 0 20
    2 0 有 1 38
    : : : : :
    2 9 有 1 12
    : : : : :
    n 13 無 0 12
    “cd4” by R package “timereg”

    View Slide

  11. 経時測定データの例2
    病状の経時変化
    • ある細胞が破壊される病気の患者数名に対して
    数回に渡り通院してもらい
    細胞の血中濃度を測定
    • 患者ごとに通院時点や通院回数が異なるため
    古典的な多変量解析を直接適用することは困難
    • 喫煙や性別などの情報と
    細胞濃度との関係をどうモデル化する?
    11
    患者 時点 喫煙 性別 濃度
    1 0 無 0 45
    1 1 無 0 37
    : : : : :
    1 10 無 0 20
    2 0 有 1 38
    : : : : :
    2 9 有 1 12
    : : : : :
    n 13 無 0 12
    “cd4” by R package “timereg”

    View Slide

  12. 経時測定データの例3
    骨密度の推移データ
    • 48名の女性に対して脊柱の骨密度を
    経時的に測定したデータ
    • 1人1人の計測時点数が2~4時点と
    非常に少ないため,個々のデータを
    独立して関数化することは困難
    • このような「まばら」なデータは
    スパース経時測定データとよばれる
    • 全員分のデータを時系列的に並べれば
    全観測時点内でのトレンドは見える
    • 平均曲線をどのように推定する?
    12
    James et al. (2000, Biometrika)

    View Slide

  13. Observed
    data
    13
    Observed
    data

    データを関数として扱うことで
    次のような特徴がある
    ✓ 経時データの観測誤差を
    除去して解析できる
    ✓ 観測時点数が多い場合
    データの次元を削減できる
    ✓ 観測時点,観測時点数が
    個体ごとに異なっていても
    容易に分析できる
    ✓ データの微分の情報を
    用いる事ができる
    Functional
    data
    関数データ解析の特徴

    View Slide

  14. 関数データ解析でできることとできないこと
    • 関数データ解析は,サンプルサイズ 𝑛 の「関数」標本に対する分析
    新しい (𝑛 + 1番目の)「関数」に対する予測などを行うことができる
    – 1個体それぞれの「先の時点の予測」が目的ではない
    (一般的には,1本の曲線の中での時系列解析のような予測が目的ではない)
    • 「経時測定データ → 関数データ解析が有効」とは限らない
    – 個体間で計測時点や計測時点数が密で均一であれば,通常の
    多変量データ解析手法で(高次元の問題はあるが)十分
    – 均一でない状況やスパース経時測定データに対して
    関数データ解析は特に有効
    14

    View Slide

  15. 目次
    • 関数データ解析の概要
    • 関数データ解析の事例紹介
    • 関数回帰モデルの推定
    • 関数データ解析手法ザッピング
    15

    View Slide

  16. 関数データ解析手法
    • 関数データ解析では,古典的な統計手法を関数データの枠組みへ拡張した
    ものが多く研究されている
    • 関数の特性を利用した,関数データならではの分析手法もある
    16
    ✓ 主成分分析
    ✓ 回帰分析
    ✓ 仮説検定
    ✓ クラスター分析
    ✓ 判別分析
    ✓ 空間データ解析
    ✓ 時系列解析
    ✓ 曲線アライメント ✓ 主微分分析 ✓ 微分方程式モデル
    補足: 主微分分析(Principal Differential Analysis; PDA)(Ramsay, 1996, JRSS-B)
    主成分分析でいう主成分の代わりに微分を用いて,データの特徴を表現する方法

    View Slide

  17. day
    応用事例 1/7:関数回帰分析
    イネの収量データ
    • さまざまな地域の水田における単位面積あたり
    イネの収穫量 (𝑌)と,イネの生育期間中における
    気温 (𝑋(𝑡)) との関係をモデル化
    • 気温を関数データとして扱い回帰モデル構築
    • 関数回帰モデルの係数関数から,
    田植えから収穫までの気温の収量への寄与を
    定量化
    17
    説明変数:気温の関数データ 目的変数:イネの収穫量
    気温の係数関数推定値
    (破線は95%各点信頼区間)
    (田植え) (収穫)
    day

    View Slide

  18. 応用事例 2/7:関数判別分析
    多発性硬化症患者(MS)の遺伝子発現データ
    • 治療を行った患者に対して
    術後に経時的に遺伝子発現量を測定
    • 治療の結果予後が良好だったグループは
    予後不良だったグループと比べて
    遺伝子の働きに違いがあるのでは?
    • 遺伝子発現量の経時変化を特徴量として
    予後良好/不良の2群を判別するモデルを利用
    18
    0 5 10 15 20
    3.2 3.6 4.0 4.4
    time
    IRF8
    0 5 10 15 20
    3.2 3.6 4.0 4.4
    time
    IRF8
    p= 0.0059
    経時遺伝子発現データ
    (データ出典:Baranzini et al., 2004)
    予後良好
    グループ
    予後不良
    グループ
    Kayano, Matsui et al. (2016, Biostatistics)
    関数ロジスティック回帰モデルによる
    回帰係数の推定値

    View Slide

  19. 応用事例 3/7:関数主成分分析
    子どもの身長データ
    • 子どもの身長の推移の特徴を
    捉えるために,関数データ版の
    主成分分析を適用
    • 主成分重みが関数として与えられ
    各主成分の特徴を表す
    – 第1:全期間での身長の高さ
    – 第2:成長期の身長の伸び方
    • 主成分得点を計算することで
    曲線の特徴を低次元のベクトルに
    変換できる
    19
    ――:第1関数主成分
    - - - -:第2関数主成分
    子どもの身長のデータと
    関数主成分分析による重み関数
    主成分得点plot
    (横:第1,縦:第2)
    Ramsay & Silverman (2005)

    View Slide

  20. 応用事例 4/7:関数クラスター分析
    小麦粉の混錬データ
    • 115種類の小麦粉を480秒間捏ね上げ,2秒間
    に1回生地の抵抗を測定
    • これらの小麦粉からそれぞれ作られる
    クッキーの品質は,抵抗の経時変化に依存
    • 抵抗の経時変化のデータを関数データ化し
    関数データに対してクラスタリングを行う
    ことで,クッキーの品質を分類
    • 端的に言うと「曲線の仲間分け」
    20
    Jacques & Preda
    (2014, Adv. Data Anal. Classifi.)

    View Slide

  21. 応用事例 5/7:関数時系列解析
    年齢別死亡率のデータ
    • 右図のデータは、1950年から2010年の1年ごとの
    年齢別死亡率(の対数)の推移を示したもの
    (R package “demography”)
    • 年代が進むにつれて、全年齢層で
    死亡率は減少傾向にある
    • これらのデータを用いて、
    未来の年における「死亡率の
    年齢別推移」を予測したい
    (「100歳より先」の予測ではない)
    21
    Hyndman & Ullah (2007,
    Comput.Statist. Data Anal.)

    View Slide

  22. 応用事例 6/7:関数空間データ分析
    様々な地点の年間平均気温データ
    • 左の図は、カナダの複数都市(右の点)で観測された、
    日別平均気温の推移を表したもの
    • このデータから、観測されていない都市・地点における
    気温の推移を予測する
    22
    Kokoszka & Reimherr (2017)

    “CanadianWeather” by R package “fda”

    View Slide

  23. 応用事例 7/7:曲線アライメント
    Pinch force データ
    • 複数の被験者に対して物を「つまむ」実験により
    得られた,つまむ力の経時変化を表したもの
    • つまむ力のピーク位置は人それぞれ
    • つまむ力のピーク位置(基準点)を横軸で揃える
    ために,各関数データを平均関数に近くなるよう
    ずらす
    • 曲線アライメントを適用することで,各被験者が
    他と比べてどのような力の入れ方をしているかが
    分かりやすくなる
    • 揃える基準点が複数ある場合に対処した方法も
    • 前述の手法に比べると「前処理」的位置づけ
    23
    “pinch” by R package “fda”
    アライメント前
    アライメント後
    Ramsay & Silverman (2005)

    View Slide

  24. 応用事例 (追記):関数回帰分析
    肉標本の近赤外スペクトルデータ
    • 近赤外線吸収率の波長毎の変動は
    肉標本の成分含有量に依存
    • 波長毎の吸収率を波長の関数データ
    とみなし成分含有量との関連を見る
    • 非破壊検査により肉標本の成分含有量を
    予測できる
    24
    水分 脂質 蛋白質
    肉標本が吸収する近赤外線の
    100チャンネル毎の吸収率
    成分含有量
    データ出典:Borggaard & Thodberg, 1992
    R package “caret”から取得可能
    https://www.tomra.com/en/sorting/food/food-technology
    Matsui et al. (2008, J. Data Sci.)

    View Slide

  25. 目次
    • 関数データ解析の概要
    • 関数データ解析の事例紹介
    • 関数回帰モデルの推定
    • 関数データ解析手法ザッピング
    25

    View Slide

  26. スカラー-関数型線形モデル
    • 説明変数が関数データ、目的変数がスカラーで与えられたモデル
    • 𝑖番目の観測における説明変数のデータを𝑥𝑖
    𝑡 ,目的変数のデータを𝑦𝑖
    とおくと
    関数線形モデルは次で与えられる
    𝑦𝑖
    = 𝛽0
    + න
    𝑇
    𝑥𝑖
    𝑡 𝛽1
    𝑡 𝑑𝑡 + 𝜀𝑖
    𝛽0
    :切片, 𝛽1
    𝑡 :回帰係数関数, 𝜀𝑖
    ~𝑁 0, 𝜎2 :誤差
    • 説明変数𝑥𝑖
    𝑡 が𝑡の関数として与えられているため
    その係数𝛽1
    𝑡 も関数で与えられる
    • 回帰係数関数𝛽1
    𝑡 は,任意の点𝑡における 𝑥𝑖
    𝑡 の𝑦𝑖
    への「影響度」の変動を
    表している
    26
    Ramsay & Silverman (2005)

    View Slide

  27. 基底関数展開(1)
    • 説明変数のデータ𝑥𝑖
    𝑡 は,基底関数展開によって表されると仮定
    𝑥𝑖
    𝑡 = 𝒘𝑖
    𝑇𝝓 𝑡
    𝒘𝑖
    = 𝑤𝑖1
    , … , 𝑤𝑖𝑚
    𝑇, 𝝓 𝑡 = 𝜙1
    𝑡 , … , 𝜙𝑚
    𝑡 𝑇
    • この展開は,データの関数化によって得られるもの
    したがって,ここでは係数𝒘𝑖
    は既知とする
    • 基底関数𝝓 𝑡 は各𝑖で共通である必要がある
    • 関数主成分分析によって得られる
    主成分得点と固有関数によって構成することもできる
    (Karhunen-Loéve展開)
    27

    View Slide

  28. 基底関数展開(2)
    • 係数関数𝛽 𝑡 も𝑥𝑖
    𝑡 と同様,基底関数展開によって表されると仮定
    𝛽 𝑡 = 𝜸𝑇𝝓 𝑡
    𝜸 = 𝛾1
    , … , 𝛾𝑚
    𝑇, 𝝓 𝑡 = 𝜙1
    𝑡 , … , 𝜙𝑚
    𝑡 𝑇
    • 係数関数𝛽 𝑡 を基底関数展開した係数𝜸は未知とする
    • 基底関数𝜙𝑘
    𝑡 の種類や数は𝑥𝑖
    𝑡 のものと異なっていてもよい
    28

    View Slide

  29. 関数線形モデルの変形
    • 基底関数展開の仮定より,関数線形モデルは次のように変形できる
    𝑦𝑖
    = 𝛽0
    + න
    𝑇
    𝑥𝑖
    𝑡 𝛽1
    𝑡 𝑑𝑡 + 𝜀𝑖
    = 𝛽0
    + 𝒘𝑖
    𝑇 න
    𝑇
    𝝓 𝑡 𝝓 𝑡 𝑇 𝑑𝑡 ⋅ 𝜸 + 𝜀𝑖
    = 𝛽0
    + 𝒘𝑖
    𝑇Φ𝜸 + 𝜀𝑖
    = 𝛽0
    + 𝒛𝑖
    𝑇𝜸 + 𝜀𝑖
    Φ = න
    𝑇
    𝝓 𝑡 𝝓 𝑡 𝑇 𝑑𝑡, 𝒛𝑖
    = Φ𝒘𝑖
    • これにより,一般的な回帰モデルに対する推定手法を適用できる
    29

    View Slide

  30. 補足
    • 基底関数 𝝓 𝑡 は各𝑖で異なってもよい?
    – 答え:OK.ただしΦ𝑖
    = ׬
    𝑇
    𝝓𝑖
    𝑡 𝝍 𝑡 𝑇 𝑑𝑡の計算が面倒になる
    – 𝝓 𝑡 = 𝝓𝑖
    𝑡 = 𝝍 𝑡 かつ𝝓 𝑡 が正規直交基底ならΦは単位行列になり
    計算が容易になる
    • 𝑥𝑖
    𝑡 = 𝒘𝑖
    𝑇𝝓𝑖
    𝑡 , 𝛽 𝑡 = 𝜸𝑇𝝍 𝑡 とすると
    𝑦𝑖
    = 𝛽0
    + 𝒘𝑖
    𝑇 න
    𝑇
    𝝓𝑖
    𝑡 𝝍 𝑡 𝑇 𝑑𝑡 ⋅ 𝜸 + 𝜀𝑖
    = 𝛽0
    + 𝒘𝑖
    𝑇Φ𝑖
    𝜸 + 𝜀𝑖
    = 𝛽0
    + 𝒛𝑖
    𝑇𝜸 + 𝜀𝑖
    30

    View Slide

  31. 関数回帰モデルの展開
    • 関数回帰モデルには説明変数・目的変数のいずれか,または両方が
    関数データとして与えられたものが提案されている
    • 回帰係数も関数として与えられ,影響度の経時的な変化を定量化できる
    • 目的変数がスカラーの場合は,スカラーデータに対する回帰モデルを
    そのまま拡張したものが多く提案
    31
    目的変数 説明変数 スカラー 関数
    スカラー 𝑌 = 𝑋𝛽 + 𝜀 𝑌 = ׬ 𝑋 𝑡 𝛽 𝑡 𝑑𝑡 + 𝜀
    関数 𝑌 𝑡 = 𝑋𝛽 𝑡 + 𝜀 t
    𝑌 𝑡 = 𝑋 𝑡 𝛽 𝑡 + 𝜀 𝑡
    𝑌 𝑡 = ׬ 𝑋 𝑠 𝛽 𝑠, 𝑡 𝑑𝑠 + 𝜀 𝑡

    View Slide

  32. 目次
    • 関数データ解析の概要
    • 関数データ解析の事例紹介
    • 関数回帰モデルの推定
    • 関数データ解析手法ザッピング
    32

    View Slide

  33. (1/4)関数線形モデルにおけるドメイン選択
    • 関数線形モデル
    𝑦𝑖
    = න 𝑥𝑖
    𝑠 𝛽1
    𝑠 𝑑𝑠 + 𝜀𝑖
    において,係数関数𝛽1
    𝑠 が定義域の一部区間で
    0と推定されれば,その時点においては説明変数は
    目的変数と関連していないと解釈できる(右図上:黒実線)
    このような推定はドメイン選択とよばれている
    (James et al., 2009, AoS; Zhou et al., 2013, Stat. Sinica;
    Lin et al., 2017, JCGS)
    • 「特定の時点以降は目的変数と関連していない」
    ように回帰係数を推定したモデル(右図下:黒実線)は
    切断関数線形モデルとよばれる
    (Hall & Hooker, 2016, JRSS-B; Guan et al., 2020, JCGS)
    (James et al., 2009)
    (Guan et al., 2020)
    33

    View Slide

  34. (1/4)実データの例
    ディーゼル車の粒子状物質排出データ
    (Clark et al., 2007)
    • ディーゼル車に対してエンジンの加速度と
    粒子状物質の排出量を経時的に(毎秒)計測
    • 一定期間の加速度とその後に排出される粒子状物質
    排出量との関係を知りたい
    (各時点での加速度がどう排出量に関連しているか)
    ⇒ 加速度:𝑋 𝑡 ,排出量:𝑌として
    関数回帰モデルの係数関数𝛽 𝑡 を推定
    • 「粒子状物質排出量は,何秒前までの加速度が関連しているか?」
    ⇒ 係数関数𝛽 𝑡 の推定値が,𝑡 > ∃𝛿 に対して መ
    𝛽 𝑡 = 0となるよう
    制約を課す
    34
    (現在) (60秒前)








    (←現在の排出量)

    View Slide

  35. (2/4)変化係数関数回帰モデル
    • 関数データの説明変数 𝑥𝑖
    𝑠 とスカラー目的変数 𝑦𝑖
    との関係が
    外生変数 𝑡𝑖
    に依存して変化
    • 外生変数 𝑡𝑖
    による影響を加味する方法の1つとして
    変化係数関数線形モデルを用いる
    (Cardot & Sarda, 2008, Comm. Statist. Theory Methods; Wu et al., 2010, Bernoulli)
    𝑦𝑖
    = න 𝑥𝑖
    𝑠 𝛽 𝑠, 𝑡𝑖
    𝑑𝑠 + 𝜀𝑖
    • 回帰係数 𝛽 𝑠, 𝑡 を推定することで,外生変数の値に応じた
    説明変数の目的変数への関連を任意の時点で定量化できる
    35

    View Slide

  36. (2/4)実データの例
    トマトの収穫量データ
    • 長期栽培され日ごとに収穫される
    トマトの収穫量と,栽培環境での
    気温との関係をモデル化したい
    • ある日の収穫量は,60~80日前の
    環境要因に影響を受けており,加えて
    その影響は季節によって異なると考えられている
    • ある日の収穫量を目的変数,
    その日から遡った80日間の気温を説明変数,
    季節(収穫日)を外生変数として
    変化係数関数線形モデルを適用
    • 任意の季節において,何日前の気温が
    どのように収穫量に関連しているか定量化
    36
    𝛽 𝑠, 𝑡 の推定値
    𝑋:Environmental factors for 80 days
    𝑌:Weekly total
    crop yield
    Day
    Matsui (2020, arXiv)






    (収穫日) (80日前)

    View Slide

  37. (3/4)曲線アライメント+クラスタリング
    • 位相ずれが起こっているデータに対して
    曲線アライメントとクラスタリングを
    同時に行う
    • クラスター数分の関数の「型」(template)を用意
    し,型に合うようにアライメントと型の更新を
    繰り返す
    • 各曲線がどれだけアライメントされたかを表す関数
    (warping関数)の推定値が得られる
    • R package “fdacluster”に実装
    37
    (Sangalli et al., 2010,
    Comput. Statist. Data Anal.)

    View Slide

  38. (4/4)Wasserstein regression
    • 観測個体1つ1つが「確率分布」を想定
    (例:各国の年齢別死亡率の分布)
    • 説明変数と目的変数に対応するデータが共に
    確率分布として与えられたとき
    これらの関係を回帰モデルで表現
    (例:X:1983年の各国の年齢別死亡率の分布
    Y:2013年の各国の年齢別死亡率の分布)
    • XとYの共分散にWasserstein covariance (Peterson & Muller, 2019, Biometrika)を
    利用することで,関数回帰モデルの枠組みで扱える・・・らしい
    38
    Chen et al. (2021, JASA)
    西暦ごとの年齢別死亡率の分布
    (Chen & Muller, 2018, Economics)
    (サーベイ不足(´・ω・`))
    Wasserstein regression
    による予測

    View Slide

  39. まとめ
    • 関数データ解析は,1つの観測が時間等の経過とともに繰り返して
    計測されたデータを関数化し,関数化データ集合を対象とした
    分析手法と理論の総称
    • 関数データ解析には,古典的な多変量解析手法を関数データの枠組みへ
    拡張したものが多く含まれる
    • 最も基本的なアプローチの一つは,関数データが基底関数展開で表される
    と仮定し,その回帰係数をベクトルデータのように扱う
    • 現在もさまざまな発展的な理論・方法論が開発中
    39
    アカデミア・企業の方問わず,
    「このデータに適用できるかも?」「こういう研究できるんじゃない?」
    に繋がれば幸いです(一緒にやってくれる方も募集中!)

    View Slide

  40. 参考文献:書籍
    • Horváth, L. and Kokoszka, P. (2012). Inference for functional data with applications. Springer, New York.
    • Hsing. T. and Eubank, R. (2015). Theoretical Foundations of Functional Data Analysis, with an
    Introduction to Linear Operators. Wiley.
    • Kokoszka, P. and Reimherr, M. (2017). Introduction to Functional Data Analysis. Chapman & Hall, New
    York.
    • Ramsay, J. and Silverman, B. (2005). Functional data analysis (2nd ed.). Springer, New York.
    • Ramsay, J., Hooker, G., and Graves, S. (2009). Functional Data Analysis with R and MATLAB. Springer,
    New York.
    追記(スライドで紹介していなかったもの):
    • Bosq, D. (2000). Linear Processes in Function Spaces. Springer, New York.
    (関数空間上での確率過程について解説)
    • Ramsay, J. and Hooker, G. (2017). Dynamic Data Analysis: Modeling Data with Differential Equations.
    Springer, New York. (微分方程式を用いたデータ分析)
    • Ramsay, J. and Silverman, B. (2002). Applied functional data analysis: methods and case studies.
    Springer, New York. (関数データ解析の応用例を紹介)
    • Shi, J. Q. and Choi, T. (2011). Gaussian Process Regression Analysis for Functional Data. Chapman &
    Hall. (関数データ解析にガウス過程回帰を適用)
    40

    View Slide

  41. 参考文献:論文(1/2)
    41
    • Cardot, H. and Sarda, P. (2008). Varying-coefficient functional linear regression models.
    Communications in Statistics. Theory and Methods, 37(20), 3186–3203.
    • Chen, Y., Lin, Z., and Müller, H.-G. (2021). Wasserstein Regression, Journal of the American Statistical
    Association, In press.
    • Guan, T., Lin, Z., Cao, J., Guan, T., Lin, Z., and Cao, J. (2020). Estimating Truncated Functional Linear
    Models With a Nested Group Bridge Approach. Journal of Computational and Graphical Statistics,
    29(3), 620–628.
    • Hall, P. and Hooker, G. (2016). Truncated linear models for functional data. Journal of the Royal
    Statistical Society Series B 78(3), 637–653.
    • Hyndman, R. J. and Ullah, M. S. (2007). Robust forecasting of mortality and fertility rates: A functional
    data approach. Computational Statistics and Data Analysis, 51(10), 4942–4956.
    • Jacques, J. and Preda, C. (2014). Functional data clustering: a survey. Advances in Data Analysis and
    Classification, 8, 231–255.
    • James, G., Hastie, T., and Sugar, C. (2000). Principal component models for sparse functional data.
    Biometrika, 87(3), 587–602.
    • James, G., Wang, J., and Zhu, J. (2009). Functional linear regression that’s interpretable. The Annals
    of Statistics, 37(5), 2083–2108.

    View Slide

  42. 参考文献:論文(2/2)
    • Kayano, M., Matsui, H., Yamaguchi, R., Imoto, S., and Miyano, S. (2016). Gene set differential analysis
    of time course expression profiles via sparse estimation in functional logistic model with application to
    time dependent biomarker detection. Biostatistics, 17, 235–248.
    • Lin, Z., Cao, J., Wang, L., and Wang, H. (2017). Locally Sparse Estimator for Functional Linear
    Regression Models. Journal of Computational and Graphical Statistics, 26(2):306–318.
    • Matsui, H., Araki, Y., and Konishi, S. (2008). Multivariate regression modeling for functional data.
    Journal of Data Science, 6(3), 313–331.
    • Petersen, A., Müller, H.-G. (2019). Wasserstein covariance for multiple random densities, Biometrika,
    106, 339–351.
    • Ramsay, J. (1996). Principal differential analysis. Journal of the Royal Statistical Society Series B, 58,
    495–508.
    • Ramsay, J. and Dalzell, C. (1991). Some tools for functional data analysis. Journal of the Royal
    Statistical Society Series B, 53, 539–572.
    • Sangalli, L.M., Secchi, P., Vantini, S. and Vitelli, V. (2010). K-mean alignment for curve clustering,
    Computational Statistics and Data Analysis, 54, 1219-1233
    • Wu, Y., Fan, J., and Müller, H. (2010b). Varying-coefficient functional linear regression. Bernoulli,
    16(3):730–758.
    • Zhou, J., Wang, N.-y., and Wang, N. (2013). Functional linear model with zero-value coefficient function
    at sub-regions. Statistica Sinica, 23, 25–50. 42

    View Slide