Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データでふりかえるToyama.rb #100 2024

データでふりかえるToyama.rb #100 2024

Kunihiko Ito

January 18, 2025
Tweet

More Decks by Kunihiko Ito

Other Decks in Programming

Transcript

  1. どのようにデータを取得したか 2021 年取得時 1. connpass, doorkeeper のイベントページから情報をスクレイピングする(Mechanize を使用) a. コミュニティイベントリストから詳細ページURLリストを取得

    b. 詳細ページを巡回 i. evnet_id, 開催日, イベント名, 人数, 開催場所 を取得 ii. 参加リストにページに遷移して ユーザーID, ユーザー名, Twitter, GitHub を取得 2. 取得した情報の誤りを修正・補修 3. doorkeeper の参加者情報を connpass に名寄せ 4. connpass, doorkeeper のイベント情報、参加者情報をマージ 2022 以降 1. connpass ページを参照して、イベントページ情報を以前のフォーマットに合わせてコピペ 2. connpass の個別のイベントページの管理ページから参加者情報 をCSVダウンロード 3. 開催地に表記ぶれがあったので、手動で補正(例: 富山県民会館 606会議室, 富山県民会館 606号室)
  2. なにを使って集計したか • rubydata/datascience-notebook • Daru • Charty • Docker Image

    が残っていたので、データを追加するだけで利用できた ◦ 便利!!
  3. まとめ • かなり多くの方が参加してた • MAG.net 以降は県民会館率が高い • コロナ禍以降は圧倒的にオンライン • データ収集も集計も大変

    • Jupyter notebook で Ruby 使えるの便利 • Charty 思った動作させるの難しいけどすごい • Docker Image が残っていたので、データを追加するだけで利用できる