Upgrade to Pro — share decks privately, control downloads, hide ads and more …

202011広島市中央卸売市場_広島県産小松菜の市場価格予測から見えたもの

bono
November 18, 2020

 202011広島市中央卸売市場_広島県産小松菜の市場価格予測から見えたもの

bono

November 18, 2020
Tweet

Other Decks in Programming

Transcript

  1. 広島市中央卸売市場/広
    島県産⼩松菜の市場価
    格予測から⾒えたもの
    bo-no

    View Slide

  2. モチベーション
    ● 政府統計情報や無料で得られるデータを使って、⾃分で
    Datasetを作り、機械学習したい
    ● はじめ、衛星データの分析をしたいと考えていて、テーマを
    ⼀次産業(農業)に絞る
    →有意な解析ができず、テーブルデータで挑む
    Sentinel Hub EO Browserより作成
    https://apps.sentinel-
    hub.com/eo-browser/
    produced from ESA remote
    sensing data
    「筆ポリゴンデータ」(農林⽔産省)
    をもとに作成
    'Base map and data from
    OpenStreetMap and
    OpenStreetMap Foundation'
    広島市の農地の区画情報(筆ポ
    リゴン)を表⽰
    https://www.maff.go.jp/j/to
    kei/porigon/hudeporidl.html
    Sentinel-2 衛星データを⽤いて、
    広島市(⼀部)のNDVIを表⽰

    View Slide

  3. モチベーション
    ● 都市農業(市街化区域内農地)は全農地の2%
    ⼀⽅経営体数は約1割 農業産出額は7%にものぼる
    ● ⽣産緑地は、都市や都市郊外の緑地化に寄与
    ● 集約型都市構造化、都市と緑・農の共⽣は、持続可能な都市経
    営のために重要
    ⽣産性向上やSDGsの⽂脈から有意義
    農林⽔産省「都市農業をめぐる情勢について」
    https://www.maff.go.jp/j/nousin/kouryu/tosi_nougyo/attach
    /pdf/t_kuwashiku-10.pdf

    View Slide

  4. モチベーション
    ● 広島市は葉物野菜の都市近郊栽培が盛ん
    ● 「広島近郊6⼤葉物野菜」(⼩松菜、サラダ⽔菜、
    春菊、ほうれん草、パセリ、⻘ネギ)に⼒を⼊れ
    ている ※1
    ● 広島市中央卸売市場に出荷される⼩松菜はほぼ広
    島県産(たまに福岡県産も)
    ● 広島県産⼩松菜の内、広島市産は54%(広島市中
    央卸売市場の中央、東部合算データ(H29年)※2
    ※1JAグループ広島&広島県ひろしま農業応援ガイド「23市町お役⽴
    ちインフォ」http://hiroshima-nougyou.jp/area-info/hiroshima/
    ※2公益社団法⼈広島市農林⽔産振興センターに電話にて確認。
    広島市「”ひろしまそだち”紹介」
    https://www.city.hiroshima.lg.jp/soshi
    ki/120/4888.html

    View Slide

  5. モチベーション
    ● 今年初夏、野菜が⾼く感じた
    →原因はコロナと梅⾬の⻑期化︖
    ● 機械学習で、原因を探ってみる
    →広島県産⼩松菜をテーマに
    広島市「”ひろしまそだち”紹介」
    https://www.city.hiroshima.lg.jp/soshiki/120/4888.htm
    l
    品⽬別農業産出額
    広島県広島市
    2018年
    野菜
    産業別特化係数
    2016年
    指定地域︓広島県広島市
    特化係数(労働⽣産性)が⾼い
    農業

    View Slide

  6. ねらい
    ⽣産超過
    供給不⾜
    価格下落
    価格⾼騰
    予測
    市場価格の予測によって、影響因⼦(説明変数)の推察と需給調整に貢献する
    消費者に対しては、価格が推移する要因を理解する助けになる。
    ⽣産者に対しては、リスクヘッジするべき時期や要因の参考にもなる。
    単価が下がっちゃうな

    不作になってしまった
    ⽣活が苦しくなるなあ
    安いのはうれしいけど、
    儲かるんだろうか

    View Slide

  7. アウトライン
    ● 2020.7の広島県産⼩松菜(広島市中央卸売市場取引)における
    価格予測を⾏う
    ● 説明変数は39カラム
    ● 2019.1.1〜2020.7.31のデータのうち、2020.7のデータを
    testデータ、その他をtrainデータとし、時系列データによる分
    析を⾏う
    ● 評価指標はRMSE

    View Slide

  8. ⽬的変数(market)
    ● all_am︓広島市中央卸売市場/広島県産野菜総量/数量(kg)
    ● all_val︓広島市中央卸売市場/広島県産野菜総量/価格(円/kg)
    ● k_am︓広島市中央卸売市場/広島県産⼩松菜の数量(kg)
    広島市中央卸売市場に関するデータについては、広島県産野菜総量が最⼤5産地に掲載
    されない場合はデータに追加しないものとする
    農林⽔産省⻘果物卸売市場調査(⽇別調査)
    https://www.seisen.maff.go.jp/seisen/bs04b040md001/BS04B040UC02
    0SC998-Evt001.do
    ● k_val︓広島市中央卸売市場/広島県産⼩松菜の価格(円/kg)
    説明変数(market)

    View Slide

  9. 説明変数(trend_survey)
    ● tre_sur_ne︓⾷品価格動向調査(野菜)/ねぎの⼩売価格(円/kg)
    調査品⽬のうち、⽬的変数に近しいものにほうれん草があったが、秋〜冬期のもので
    あったため、通年のデータがあるねぎを採⽤
    1週間毎のデータのため、原則1週間その価格が続いたものとして利⽤ 緊急事態宣⾔中
    等で、1週間以上の期間が発⽣した場合も、直近データが続いたものとして利⽤する
    農林⽔産省「⾷品価格動向調査(野菜)」
    https://www.maff.go.jp/j/zyukyu/anpo/kouri/k_yasai/h22index.html
    説明変数(cultivation)
    ● k_term︓⼩松菜の栽培歴
    ● h_term︓ほうれん草の栽培歴
    ● m_term︓⽔菜の栽培歴
    ● s_term︓春菊の栽培歴 農林⽔産省「秋⽥県野菜栽培技術指針」
    https://www.maff.go.jp/j/seisan/kankyo/hozen_type/h_sehi_kizyu
    n/aki3.html
    品⽬別栽培⽅法中の各品⽬における栽培歴を
    元に、各品⽬毎に1年を区分したtermを⽣成
    (例)2019.2.20〜2019.4.30︓⽔菜の栽培
    歴を⽔菜の第1termとする

    View Slide

  10. 説明変数(atm)
    ● precipitation︓降⽔
    量の合計(mm)
    ● daylight︓⽇照時間
    (時間)
    ● temperature︓平均
    気温(℃)
    が使⽤した地点
    気象庁「過去の気象データ・ダウンロード」
    https://www.data.jma.go.jp/gmd/risk/obsdl/ind
    ex.php#

    View Slide

  11. 説明変数(all_cor, pre_cor)
    ● jap_patients︓国内新型コロナウィルス感染症におけるPCR検
    査陽性者数(⼈数/単⽇)※
    ● pre_patients︓広島県内新型コロナウィルス感染症患者数(⼈
    数/単⽇)
    広島県「新型コロナウィルス感染症患者の概要」                 
    (https://www.pref.hiroshima.lg.jp/site/hcdc/covid19-kanjya.html)掲載のデー
    タより作成
    ※厚⽣労働省「オープンデータ」
    https://www.mhlw.go.jp/stf/covid-19/open-
    data.html

    View Slide

  12. 説明変数(trend)
    ● trend_o︓GoogleTrends検索キーワード「外出」
    の⼈気度動向(⽇本)ピーク︓2020.5.31〜2020.6.6
    ● trend_v︓GoogleTrends検索キーワード「野菜」
    の⼈気度動向(⽇本)ピーク︓2020.3.22〜2020.3.28
    1週間毎のデータのため、1週間その⼈気度が続いたものとして利⽤
    野菜
    外出
    GoogleTrends
    https://trends.google.com/trends/?g
    eo=JP

    View Slide

  13. Feature Engineering(やったこと)
    ● 時系列分析
    yyyy/mm/ddをdatetime型にし、year,month,day,dayofweek(曜⽇)カラムを作

    ● データ結合
    ⽇付データを軸に、marketデータ以外のデータをmerge、最後にmarketデータと
    mergeし、marketデータのある⽇付で結合
    ● 特徴量選択
      基本的に落とした特徴量はない

    View Slide

  14. Feature Engineering(うまくいかなかったもの)
    ● k_val/all_valとして⽬的変数を変更し、予測値を出す時に戻す。
    corr係数が⾼かったので試したが改善せず
    ● trainデータを2020.3~2020.6.30に削る
    2020.7はk_valに⼤幅な変化があったので、コロナ影響が顕著になった頃からのデータ
    にtrainデータを絞ったが、モデル改善にはならなかった。ただし、trainデータにコロ
    ナ患者数との相関が⾒られた
    ● log化
    all_valなどlog化してモデル改善できそうなものを試した

    View Slide

  15. モデル(LightGBM)
    ● 今回は単⼀モデルで学習を⾏った
    ● NNは今回試さなかった
    ● GDBTのあたりがよかった
    ● パラメータサーチは⼿動
    trainデータ RMSE = 13.11
    testデータ  RMSE = 74.77
    最初はtestデータのRMSEが100を超えていたが、LightGBMの採⽤、広島市役所経済観光
    局農林⽔産部農政課の⽅のアドバイスを参考に、オープンデータから⼊⼿可能な⾷品価格動
    向調査や栽培歴の説明変数を追加したことによりスコアが改善した
    ● 広島市の⼩松菜の⽣産者は⼩松菜を
    ベースに他の葉物野菜も栽培してい
    る場合もある 季節ごとの栽培期間
    を勘案するとよいかもしれない
    ● 外⾷・中⾷/⼩売向けで規格・単価
    が変わる

    View Slide

  16. 相関 df train test
    ● df(2019.1.1〜2020.7.31)                               
    ⾷品価格動向、コロナ患者数、トレンド(野菜)、県北の⽇照時間の相関係数が⾼め
    ● train(2019.1.1〜2020.6.30)                              
    ⾷品価格動向、⽔菜の栽培歴、トレンド(野菜)、平均気温の相関係数が⾼め
    ● test(2020.7.1〜2020.7.31)                              
    春菊の栽培歴、⾷品価格動向、県南部の⽇照時間、平均気温の相関係数が⾼め

    View Slide

  17. k_valの価格推移
    去年より⼭が⾼め
    台⾵17号等の影響︖
    県南の梅⾬
    の影響︖
    市場の価格⾼騰が⼩売価格に
    そのまま転嫁されていない

    View Slide

  18. Null Importance
    ● tre_sur_ne
    ● day dayofweek
    ● trend_v
    ● s_term k_term
    市場や栽培歴、トレンドなど、
    ドメイン知識もやはり重要
    ● daylight,temperature
    気象条件も相関に違いが
    ● all_val,k_am
    価格と量は外せない関係

    View Slide

  19. まとめ
    ● 広島市中央卸売市場/広島県産⼩松菜の価格予測をしてみた
    ● 仮説通りというよりも、時期に応じて相関が⾒受けられた。
    (2020.4頃はおそらくコロナ、2020.7頃はおそらく県南の気
    象条件)
    ● データの傾向としては、真冬と真夏に価格が上昇傾向にあるが、
    夏は台⾵や梅⾬等が強く関わるため、年によって時期がずれた
    り傾向が少し変わる
    ● 予測精度をあげるためには、市場の特性(休業⽇や⼩売価格等
    との関係)、⼩松菜だけではなく他の葉物野菜も含めた栽培歴
    などのドメイン知識が重要になる

    View Slide