Upgrade to Pro — share decks privately, control downloads, hide ads and more …

質問サイトからみる Rubyに関する質問傾向 を調べてみたよ

8zca
December 11, 2019

質問サイトからみる Rubyに関する質問傾向 を調べてみたよ

LegalForce Ruby Meet Up #1で発表した資料です。

8zca

December 11, 2019
Tweet

More Decks by 8zca

Other Decks in Technology

Transcript

  1. クローリング 5 • tag: rails がついているものを検索し、質問と回答を抽出
 ◦ 初心者マークがついているものを対象 
 •

    ライブラリ
 ◦ selenium webdriver 
 ▪ ページングがJavaScriptで処理されているため
 ◦ nokogiri
 • 検索結果からページングしつつ質問URLの一覧を取得
 • 個別の質問URLに対してnokogiriでパースしてcsvに落とす
 ◦ タイトル, 投稿日時, 質問, 回答1, …, 回答n
 ruby単体だと97%が railsの質問だった
  2. クラスタリング 6 • 質問を形態素解析にかける
 ◦ sudachiを利用
 ▪ 医療品安全管理責任者が1つの形態素として扱える
 ▪ mecabだと

    医療/品/安全/管理/責任/者 になる
 • ベクトル化
 ◦ doc2vecを使う
 ◦ TF-IDFを使う # 数十パターン試したけどこっちがよさそう
 • k-meansでクラスタリング
 • ついでにwordcloudで可視化

  3. 8 表示の不具合 ・JQuery、ajax ・erb、form_tag ・objectを出力したい モデル保存できない (もっとありそう・・) css//JSが読み込まれ ない 画像に関する不具合

    ・activestorage ・carrierwave ・cloudinary タグ機能に関するも の ユーザーに関するもの ・登録とか投稿とかフォ ローとか k=8でクラスタリ ング。 正確に分かれて いるわけじゃなく ノイズも混ざって る