Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMとPlaywrightで実現する非定型なデータの収集

yukiyamamuro
December 05, 2024
20

 LLMとPlaywrightで実現する非定型なデータの収集

yukiyamamuro

December 05, 2024
Tweet

Transcript

  1. 自己紹介 名前・所属 山室友樹(Yuki Yamamuro)
 株式会社Macbee Planet・MOps Group 経歴 マーケティングデータ活h q

    データ基V q ReverseETQ q 広告運h q LLMを利用したPoC 好きなRaycast機能 q Snippet“ q VS Code拡張(Search Recent Project)
  2. 広告主の掲載順位を知りたい! e 検索結果であればahrefsやSemrushがあu e 前a e 一般的に上位に表示されている方が獲得数が多v e 制T e

    数100にもなるWebサイトを案件の担当者が全て調 べることはできなv e 各WebサイトでHTML構造が違う・随時変更されるの で従来のスクレイピングでは機械的に取得できなかっ た
  3. TIPS2: Gemini APIとVertexAIなどそれぞれ違った制約がある Rate Limit 課金対象 GeminiAPI(無料) 15 RPM(リクエスト /

    分) 100 万 TPM(1 分あたりのトークン数) 1,500 RPD(1 日あたりのリクエスト数) 無料 GeminiAPI(有料) 2,000 RPM(1 分あたりのリクエスト 数) 400 万 TPM(1 分あたりのトークン数) 入力:100 万 あたり $0.075 トーク ン Vertex AI(flash) 200 RPM(us-central1)
 400 万 TPM 入力:1000 あた り$0.00001875 文字 文字はUTF-8のコードポイントでカウント https://cloud.google.com/vertex-ai/generative-ai/pricing
  4. 制約の緩和方法がModelによって違う j gemini-1.5-flash-00p j 上限緩和の申請が必h j gemini-1.5-flash-00 j 動的共有クオータが適用され利用容量に応じて拡張されu j

    指数バックオフアルゴリズムを利用したRetryを行t j 安定的に運用するためにはProvisionedThroughputを購入する必要がある