Upgrade to Pro — share decks privately, control downloads, hide ads and more …

コサイン類似度のいろんな書き方

nogawanogawa
April 25, 2024
870

 コサイン類似度のいろんな書き方

nogawanogawa

April 25, 2024
Tweet

Transcript

  1. 自己紹介 © 2024 Wantedly, Inc. - 角川拓也 - X: @nogawanogawa

    - 所属 - ウォンテッドリー株式会社 データサイエンティスト - ex. - ITコンサル @コンサル会社 - SE @金融系SIer
  2. コサイン類似度 © 2024 Wantedly, Inc. - 機械学習の分野ではよく使用される計算 - テキストや画像など情報を embedding

    (埋め込み、高次元のベクトルのこと )で表現することが多い - こうしたテキストや画像の類似している度合いをコサイン類似度を使って表現 - こうした状況では大量にコサイン類似度を計算することがある
  3. まとめ © 2024 Wantedly, Inc. • コサイン類似度にも書き方はたくさんある • そもそも想定する計算パターンが異なっていることも ◦

    ライブラリによって計算パターンが違ったりする ◦ 調べた中ではsklearnは全ての組み合わせを計算することが想定されていそう に見えた • 書き方次第で実行速度がかなり変わる ◦ Numpyだけでも行列計算を用いれば十分高速に計算できる ◦ 今回CPUで実行した中ではNumbaが最も高速な結果に ◦ 計算部分だけ見ればJAXのほうが高速になることも見られた