Slide 1

Slide 1 text

ゲノミクスとCursor: 進化と制約のあいだ 小井土 大(KOIDO Masaru) 2025/06/06 19:30~19:40 Cursor Meetup Tokyo 本発表の内容は私個人の見解であり、 所属組織の見解を示すものではありません。

Slide 2

Slide 2 text

金融系シンクタンク 3年 → アカデミア 10年目 専門:データ分析 手法:統計解析と機械学習 対象データ:ゲノム・オミックス、健診・病院データ、etc. 代表業績: 予測の科学 遺伝的多型から 薬剤性肝障害リスク を予測 (Nat Med. 2020) 組織画像から 遺伝子の転写量 を予測 (Sci Rep. 2022) DNA配列から 非翻訳RNAの転写 を予測 (Nat Biomed Eng. 2023) 小井土 大 (東京大学・助教、36歳) 自己紹介 2 / 11

Slide 3

Slide 3 text

現代人のヒトゲノム 🧬には 進化的制約 (=重要な機能のために 変異が蓄積しにくい)の痕跡が刻まれている 機械学習と変異シミュレーションを用いた手法開発により、 ゲノムに刻まれた進化上の重要な記録を読み解く Tomizuka , Koido , Suzuki , et al. bioRxiv. 2024 (preprint) 最近の研究: 進化と制約に着目したDNA配列AI † †,* † 自己紹介 3 / 11

Slide 4

Slide 4 text

データサイエンス 機械学習: Python (PyTorch, XGBoost, ...) 集計/統計解析/作図: R (tidyverse) 普段のデータ処理: shell芸 (awkなど) 日々のアレコレ スライド・ポスター: Marp (Markdown + CSS) Chrome拡張機能づくり: TypeScript MCPサーバーづくり: Python 私とコーディング 自己紹介 4 / 11

Slide 5

Slide 5 text

全般: Cursor (Pro) 作図: Rstudio + GitHub Copilot 出先でアイデアを粗々カタチに: OpenAI Codex ダブルチェック: CodeRabbit 少し遊んだだけ: Cline, Roo Code 正直、コーディングAIの 進化 が速すぎて、ついていけていない Devin, Claude Codeなど、試していない... 私とコーディングAI (2025年6月時点) 自己紹介 5 / 11

Slide 6

Slide 6 text

個人情報を含まない ゲノム解析ツールの開発・更新 アイデアの高速プロトタイピング 処理の高速化 保守管理能の向上(モジュール化など) 昔動いたスクリプトの再利用 テスト用データ・コードの作成 スライド・ポスターのデザイン(CSS for Marp) CSS不勉強だが、アウトプットで判断 Vibe Coding! 私の研究にCursorをどう利用しているか? 私とCursor 6 / 11

Slide 7

Slide 7 text

LLMが正確なp値を計算でき たら、世界の誰かが笑顔に 🤗 アンダーフローになるp値も 正確に再計算するMCPサーバ を作ってみた @skoyamamd らが公開する R スクリプトのラッパー https://github.com/koido/extreme-p-mcp LLM meets extreme p-values! 私とCursor 7 / 11

Slide 8

Slide 8 text

探索的データ分析やデータクリーニングでは、 ログ・図・集計表を見て次の分析を考える 例: プロットしたら分布が歪んでた → 歪みの原因を特定したい 欠損値が多かった → データ取得に問題ありそうな 集団を見つけたい データ分析での理想的コーディングAI活用 私とCursor 8 / 11

Slide 9

Slide 9 text

1. うっかり個人情報を API に流し込んだら... 同意・事前計画などで、データを置けるサーバーに 制約 2. 学習に使われたら... Cursor では Privacy mode で制御できる 3. ルール追加・変更をフォローできなかったら... Cursor の Background Agents では Privacy mode をオフ (in future で変わる?) 取扱い注意データ を含む環境では Cursor 未使用 私とCursor 9 / 11

Slide 10

Slide 10 text

制限付きアクセスのヒトゲノムデータ(NIHとの契約等の 一定の条件下で利用可能)に関して: プロンプトでのデータ入力は第三者提供( 禁止) ユーザーが学習した生成AIモデルはData Derivatives 承認済ユーザー以外と共有禁止 プロジェクト終了時に削除 延長申請等も可能ではある。 詳細は https://grants.nih.gov/grants/guide/notice-files/NOT-OD-25-081.html (Release Date: 2025/03/28) 米国NIHでのヒトゲノムデータへの生成AI方針 私とCursor 10 / 11

Slide 11

Slide 11 text

Cursor は個人情報等を用いない機械学習研究を加速中 あらゆるデータ分析でシームレスなCursor活用が理想 同じ悩みを持つ皆さんとの交流が楽しみ 気軽にDMください! : @m_koido : masaru-koido-53b284144 まとめと今後の期待 ご清聴ありがとうございました! 11 / 11