Slide 1

Slide 1 text

Spatial AI 勉強会 ChatGPTで論⽂は読めるのか Preferred Networks, Inc. 加藤 ⼤晴

Slide 2

Slide 2 text

2 - 業界や⽬的によって異なるところが多そうなトピックです。 このスライドは,あくまで我々の周辺,我々の⽤途に限った話になります - とにかく⽂字が多いです。お急ぎの⽅は太字と表だけご覧ください - 実験に⽤いたモデルは ChatGPT 5 Thinking です - リンク類はすべて Speaker Deck の説明欄に記載しています おことわり

Slide 3

Slide 3 text

3 ⾃⼰紹介 ― 加藤⼤晴(かとうひろはる) Preferred Networks, Inc. リサーチャー / エンジニアリングマネージャー 3Dコンピュータビジョンに関する研究開発 最近の講演など - GPU UNITE 特別講演 (2025) 『エンタメとAIのための3Dパラレルワールド構築』 - ⼟⽊学会応⽤⼒学委員会 応⽤数理‧AIセミナー (2025) 『深層学習と3Dキャプチャ‧3Dモデル⽣成』 - 東京⼤学⼤学院 情報理⼯学系研究科『知能情報論』(2024) 『三次元再構成』 [Web] [Google Scholar] [Twitter] [E-Mail]

Slide 4

Slide 4 text

4 論⽂読み会に参加し続けること⼗数年,時に主催者として,正直思うのは… - 情報を読み取るだけなら,⾃⼒で読めばいい気も…? - 書かれていないことが聞けるとありがたい - たくさんの論⽂の中から何故これを選んだのか - どれくらいイケてるのか,それは何故か - この研究分野はこの後どうなりそうなのか - 懇親会が本番,論⽂解説パートはそのための話題提供という気も - …というか今どき,だいたいChatGPTで済んじゃうんじゃない? 論⽂読み会って必要? 試してみた(今⽇のテーマ)

Slide 5

Slide 5 text

5 ChatGPTで 1. 論⽂に書かれていることを読めるのか 2. 論⽂に書かれていないことを読めるのか

Slide 6

Slide 6 text

6 検証⽅法 ― ツイッターから いろいろあって,よくわからない

Slide 7

Slide 7 text

7 検証⽅法 ― Deep Research

Slide 8

Slide 8 text

8 研究者向けのプロンプト例 ⽤途 プロンプト 研究背景を把握する この論⽂の研究背景と、解決しようとしている課題を簡潔に説明してください。 新規性‧貢献を理解する この研究の新規性や貢献は何ですか?先⾏研究と⽐べて特に斬新な点を教えてください。 提案⼿法を要約する 論⽂で提案された⼿法の内容を、主要なポイントが分かるように要約してください。 実験結果を要約する この論⽂の実験結果から得られた主要な知⾒や結果を簡潔にまとめてください。 考察‧今後の課題を把握する 論⽂の考察の要点と、著者が⾔及している限界や今後の課題を教えてください。 これらは落合陽⼀先⽣の論⽂まとめフォーマット*とほぼ対応していて,納得感が⾼い *「どんなもの?」「先⾏研究と⽐べてどこがすごい?」「技術や⼿法のキモはどこ?」「どうやって有効だと検証し た?」「議論はある?」「次に読むべき論⽂は?」から成る。研究背景,全体要約,次に読む論⽂に違いがある。

Slide 9

Slide 9 text

9 実⽤化技術者向けのプロンプト例 ⽤途 プロンプト 実装⼿順を抽出する 論⽂に記載された⼿法を実装するための⼿順を、箇条書きで挙げてください。 モデル構成‧ハイパーパラメー タを整理する 論⽂のモデル構成と主要なハイパーパラメータを整理して説明してください。 疑似コードを⽣成する 論⽂で提案されたアルゴリズムを、疑似コード形式で⽰してください。 応⽤例を検討する この論⽂の技術は実際にどのような応⽤例(ユースケース)に使えそうですか? 論⽂中の記述に基づいて説明してください。 性能指標を⽐較する 論⽂で報告された主要な性能指標と、従来⼿法との⽐較結果を要約してください。 コンピュータビジョンでは「モデル」や「アルゴリズム」を扱わない論⽂も多く* 想定する論⽂の幅が狭めなのは気になるところ *特にデータセット提案やハードウェア提案など

Slide 10

Slide 10 text

10 試してみた 例題: “Neural 3D Mesh Renderer” [Kato+ 2018] ✔ 著者なので,内容をよく知っている ✔ 発表してしばらく経ち,⻑所や短所がほぼ明らかになっている ✗ 論⽂⾃体に書かれていないことを,ChatGPT が知っている可能性がある

Slide 11

Slide 11 text

11 試してみた: 背景と課題 指⽰: この論⽂の研究背景と、解決しようとしている課題を簡潔に説明してください。 出⼒: 2D画像から3Dを学習するにはレンダリングをNNに統合する必要があるが、メッシュ→画 像のラスター化は離散で逆伝播が遮られる。メッシュはコンパクトで幾何操作に適する⼀⽅、 この⾮微分性が障壁。 評価: 誤りとはいえないが,⼤事なところで,理解のために必要な情報が不⾜している。やや⽇ 本語が不⾃然なところも。 (⼤前提の「2D画像から3Dを学習」がいったい何を指すのか,近い分野の研究者でもほぼ理解できないはず。「離散で」は通 じなくはないが,「離散的な操作が含まれ」という表現が⾃然。) ※不適切な部分に下線を引いた

Slide 12

Slide 12 text

12 試してみた: 新規性 指⽰: この研究の新規性や貢献は何ですか?先⾏研究と⽐べて特に斬新な点を教えてください。 出⼒: ラスター化に対する近似勾配を導⼊し、頂点だけでなくテクスチャ‧照明‧カメラにも勾 配を流すNeural Rendererを提案。3D監督なしの単画像メッシュ復元と、2D損失のみでの3Dス タイル転送∕DeepDreamを初実現。 評価: 内容も表現もほぼ適切。「関連論⽂の知識があれば伝わる」くらいの難易度なので,論⽂ 読み会などではもう少し丁寧に説明したいところではある。 (⾃分なら,「3D監督なしの単画像メッシュ復元」は「画像を⽴体化して3Dメッシュを出⼒するモデルを,3Dデータを使わず に学習」,「2D損失のみでの3Dスタイル転送」は「画像のスタイルを3Dモデルに転写」と書く。やや⻑いか。) ※不適切な部分に下線を引いた

Slide 13

Slide 13 text

13 試してみた: 技術の要点 指⽰: 論⽂で提案された⼿法の内容を、主要なポイントが分かるように要約してください。 出⼒: 順伝播は通常のラスタライズ、逆伝播で画素変化を辺近傍の頂点移動に線形近似し、可視 ⾯にのみ勾配を割当てる近似を設計。復元では642頂点の球を変形し、シルエットIoU損失と⾯ の平滑化正則化を併⽤して学習。 評価: ほぼ正確な記述だが,そもそも図がないと理解が困難。ChatGPT を使うより,図とその 説明をさっと読む⽅が良さそう。 (「復元では」と突然⾔われると⾯⾷らうが,前のページと合わせるとわかりやすくなる。) ※不適切な部分に下線を引いた

Slide 14

Slide 14 text

14 試してみた: 実験と知⾒ 指⽰: この論⽂の実験結果から得られた主要な知⾒や結果を簡潔にまとめてください。 出⼒: ShapeNet13カテゴリで単画像復元を評価し、体素IoUで13中10カテゴリでボクセル法を 上回る。airplane/chair/display等で顕著。平滑化は⾒た⽬改善の⼀⽅でIoUが僅かに低下。ス タイル転送∕DeepDreamも形状に沿った編集を確認。 評価: 複数の実験があるが,それらの結果と評価をほぼ適切に要約できている。 (「体素」はボクセルを意味する中国語らしい。「形状に沿った」は「スタイル画像の形状に沿った」でないと意味が通じに くいが,完全に間違いとはいえない。) ※不適切な部分に下線を引いた

Slide 15

Slide 15 text

15 試してみた: 考察 指⽰: 論⽂の考察の要点と、著者が⾔及している限界や今後の課題を教えてください。 出⼒: メッシュは体素のキューブ状アーチファクトがなく外観が良いが、球変形では位相変更が できず多様トポロジーに弱い。改善には頂点—⾯接続{fi}の動的⽣成が必要。car/lamp/tableな ど複雑形状で精度が低い点も課題。 評価: 翻訳の問題はあるが,抜書きとしては正確。ただ,その後の研究動向とは⼀致しない。こ れは論⽂の記述の⽅に問題があるといえる。 (「頂点—⾯接続{fi}」って何だろう? それはそうとトポロジーの問題は重要で,ニューラル場の導⼊で解決された。その他 の重要な課題は,後続研究の傾向から眺めると,ここに記載されていることではなく,物理ベースレンダリングへの対応や,使 いやすいライブラリの整備など。) ※不適切な部分に下線を引いた

Slide 16

Slide 16 text

16 研究者向けのプロンプト例 まとめ 対象 評価 研究背景 2D画像から3Dを学習するにはレンダリングをNNに統合する必要があるが、メッシュ→画像のラスター化は離 散で逆伝播が遮られる。メッシュはコンパクトで幾何操作に適する⼀⽅、この⾮微分性が障壁。 新規性 ラスター化に対する近似勾配を導⼊し、頂点だけでなくテクスチャ‧照明‧カメラにも勾配を流すNeural Rendererを提案。3D監督なしの単画像メッシュ復元と、2D損失のみでの3Dスタイル転送∕DeepDreamを初 実現。 提案⼿法 順伝播は通常のラスタライズ、逆伝播で画素変化を辺近傍の頂点移動に線形近似し、可視⾯にのみ勾配を割当 てる近似を設計。復元では642頂点の球を変形し、シルエットIoU損失と⾯の平滑化正則化を併⽤して学習。 実験結果 ShapeNet13カテゴリで単画像復元を評価し、体素IoUで13中10カテゴリでボクセル法を上回る。 airplane/chair/display等で顕著。平滑化は⾒た⽬改善の⼀⽅でIoUが僅かに低下。スタイル転送 ∕DeepDreamも形状に沿った編集を確認。 考察‧課題 メッシュは体素のキューブ状アーチファクトがなく外観が良いが、球変形では位相変更ができず多様トポロ ジーに弱い。改善には頂点—⾯接続{fi}の動的⽣成が必要。car/lamp/tableなど複雑形状で精度が低い点も課 題。 ※不適切な部分に下線を引いた

Slide 17

Slide 17 text

17 研究者向けのプロンプト例 まとめ 対象 評価 研究背景 理解のために必要な重要な情報が不⾜。やや⽇本語が不⾃然なところも 新規性 やや難しめの書き⽅ではあるが,内容はほぼ適切 提案⼿法 記述は正確だが,図がないと理解が困難なので,論⽂⾃体を読む⽅がよい 実験結果 複数の実験があるが,それらの結果と評価をほぼ適切に要約できている 考察‧課題 抜書きとしては正確だが,振り返ってみれば,書いてあることが適切とはいえない ほぼ正確で適切だが,ところどころ情報不⾜や翻訳ミスが⾒られる そこを詳しく聞いてみるのは?

Slide 18

Slide 18 text

18 研究者向けのプロンプト例 さらに聞く この論⽂については,ChatGPTと対話するだけで ⼗分に要点を掴むことができるといえる ほぼすべてについて,正確かつ わかりやすい解説を出⼒ 以下、分野外の⼈にもやさしく説明してください - 「2D画像から3Dを学習」ってどういうこと? - 「離散で逆伝播が遮られる」ってどういうこと? - 「形状に沿った編集」ってどういうこと? - 「体素」って何? - 「頂点—⾯接続{fi}」って何?

Slide 19

Slide 19 text

19 実⽤化技術者向けのプロンプト例 まとめ 対象 評価 実装⼿順 粒度がバラバラで情報も⼤幅に不⾜していて,明らかに不適切 擬似コード 細部は不正確だが,内容の理解には⼗分有⽤ モデル構成 誤りはないが,そもそも論⽂の要点がモデル提案ではない 応⽤可能性 正確に抜書きできているが,書かれていないことを想像してほしいところ 性能指標の解釈 正確に抜書きできていて,内容理解に有⽤ よっしゃ使うぞ,となると論⽂に記載がないこと(ソースコードの公開の有無,ライセンス,使い⽅, 必要な計算機環境,実⾏時間,⼿元のタスクとの相性,その性質を踏まえた限界,…)が重要なので,そもそも 「ChatGPTで論⽂を読む」との相性が良くない

Slide 20

Slide 20 text

20 他の論⽂では? 最近の Spatial AI 勉強会で PFN メンバーが取り上げた論⽂を対象に評価 ✔ 他⼈が書いた最新の論⽂を読む,という実際の論⽂読み会に近いシナリオ 野⼝さん紹介 [資料] Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation (Bahmani+ 2025) 松岡さん紹介 [資料] HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis (Wang+ 2025)

Slide 21

Slide 21 text

21 他の論⽂で: Lyra 対象 評価 研究背景 ⾼品質な3D/4D環境を⼤規模に⽣成したいが、従来の再構成は正確な姿勢や多視点実写に依存し、動的シー ンは多カメラが必要。動画拡散は汎化⼒は⾼い⼀⽅で2Dに留まり明⽰3Dがない。本論⽂は両者を橋渡しす る枠組みを提案する。 新規性 カメラ制御型動画拡散を教師、3DGSデコーダを⽣徒とする⾃⼰蒸留で、多視点実写を不要化。動画“潜在 空間”で学習し、単画像/単動画から明⽰的3D/4Dを⼀発⽣成。寄与として①⾃⼰蒸留枠組み②動的4D拡張 ③各タスクでSOTA達成を⽰す。 提案⼿法 ⼊⼒画像/動画とサンプルした複数軌道を条件に動画潜在zを⽣成。RGB復号(教師)と3DGS復号(⽣徒) を並列に⽤意し、3DGSレンダをRGBと⼀致させて⾃⼰蒸留。潜在空間で多視点を融合し、Plücker/時間埋 め込みと動的データ拡張で4Dにも対応。 実験結果 単画像→3DではRealEstate10K/DL3DV/Tanks&TemplesでPSNR‧SSIM向上、LPIPS低下と既存法を⼀貫し て上回る。Lyra静的/動的でもBTimer(GEN3C)を⼤差で上回る。アブレーションから深度損失‧LPIPS‧多 視点融合‧Mamba2が品質/速度に寄与。 考察‧課題 性能と⼀貫性は教師たる動画拡散の容量に制約されるため、より強⼒な動画モデルで⼤規模‧⾼整合な⽣ 成が可能に。⾃動回帰の導⼊や、動きとトラッキングの内在化で動作品質の改善を⽰唆。応⽤はロボティ クス等だが誤⽤リスクにも配慮。 ※不適切な部分に下線を引いた By 野⼝さん

Slide 22

Slide 22 text

22 他の論⽂で: Lyra 対象 評価 研究背景 実データの多様性の不⾜など重要な点が⽋落。表現が不適切な部分もある 新規性 間違ったことは書いていないが、内容を理解するには情報が不⾜している 提案⼿法 実データが不要であることが抜けている。Plucker埋め込みで4D対応は誤り。 これだけでは理解が困難 実験結果 間違ってはいないが、実データについての実験が抜けている 考察‧課題 論⽂からの抜き出しはできているが,⼀部翻訳が不適切 概要は理解できるが,重要な情報が抜けている By 野⼝さん

Slide 23

Slide 23 text

23 他の論⽂で: HyRF 対象 評価 研究背景 NeRF は⾼画質だが低速。対して 3D Gaussian Splatting は実時間だが、各ガウシアンが視線依存⾊や形状 を多パラメータ(約59)で持ちメモリ過⼤。格⼦型ニューラル圧縮は⾼周波細部を失いがち。⼩容量‧⾼ 精細‧実時間の両⽴が課題。 新規性 HyRF は「明⽰+暗黙」のハイブリッド。位置‧等⽅スケール‧不透明度‧拡散⾊のみを明⽰保持し、残り を⼆つの格⼦型ニューラル場(幾何:スケール/不透明度/回転、外観:視線依存⾊)で推定。視錐台外プリ カリングと背景球マップを併⽤し、3DGS⽐で最⼤20×⼩容量かつ実時間。 提案⼿法 三段構成。①視錐台外ガウシアンを事前カリングし計算削減。②可視点の位置でニューラル場をクエリ し、幾何(スケール‧不透明度‧回転)と外観(視線依存⾊)を推定、明⽰パラメータと合成して⾼周波 を復元。③背景マップを球に投影し、前景スプラッティングとα合成。 実験結果 実写3データセットで最⾼のPSNR/SSIMと3DGS並のFPSを両⽴し、モデルサイズはNeRF系に近く⼤幅縮⼩ (表1)。3DGS⽐で品質向上かつサイズ12×超縮⼩、Scaffold-GS⽐で1.5‒5×⼩型‧⾼速。都市規模でも 品質とサイズで優位(表3)。圧縮版も既存法を画質‧サイズで上回る。 考察‧課題 明⽰‧暗黙の分離と背景統合が遠景や⾼周波の保全に有効と⽰す⼀⽅、未解決としてエイリアシングと表 ⾯再構成誤りを指摘。さらに⾼速描画は⾼性能GPU依存で、Web/統合GPUでの同等効率は今後の課題。 ※不適切な部分に下線を引いた By 松岡さん

Slide 24

Slide 24 text

24 他の論⽂で: HyRF 対象 評価 研究背景 ⼗分に要約できている 新規性 数値は怪しい 提案⼿法 細かい部分が読み解けない 実験結果 数値は怪しい 考察‧課題 元々の論⽂の考察や課題の議論が不⼗分であるためか,訳語がおかしい 要約としては悪くないが,数値が怪しかったり, どこから出てきたかわからない単語がある By 松岡さん

Slide 25

Slide 25 text

25 論⽂に書かれていることを読めるのか 観測のまとめと議論 (N=3) - 抜書きと翻訳で⼗分な箇所(背景‧新規性‧議論など)は,半分くらいは適切に処理可能 - 半分くらいの出⼒は不適切 - 理解不能な出⼒が多い - 不適切な訳語が多い - 重要な情報の⽋落が多い - ⼿法の詳細や数値はあやしい - ⼿法や実験,数値など,複数の情報の統合と要約が必要な箇所は全体にあやしい - ChatGPT で⼗分読める論⽂も,まったく不⼗分な論⽂もある - まだ,⼈間の⽅がだいぶ優れていそう これらは,追加質問でほぼ解消できる これらは,不適切であることに気付くことができない

Slide 26

Slide 26 text

26 個⼈的な着地点 感覚的に,ChatGPT は - 曖昧検索には優れている → 抜き書きは任せられる - 翻訳(表⾯的な⾔い換え)も得意だが,所々あやしい → ⽇英併記が望ましい - 要約(複雑な⾔い換え)はしばしば信⽤できない → そこは⾃⼒で ということから, “先⾏研究と違うところは? 関連する記述を抜き書きした上で⽇本語訳してください” という使い⽅をすると効率がよい

Slide 27

Slide 27 text

27 ChatGPTで 1. 論⽂に書かれていることを読めるのか 2. 論⽂に書かれていないことを読めるのか

Slide 28

Slide 28 text

28 論⽂に書かれていないことを読めるのか 読み会では聞けるが,論⽂に書かれていないこと - たくさんの論⽂の中から何故これを選んだのか - どれくらいイケてるのか,それは何故か - この研究分野はこの後どうなりそうなのか これらは,以下ように(やや強引に)読み替えることができる 1. ChatGPTは,論⽂の良さの⽐較と,その説明ができるのか 2. ChatGPTは,その論⽂に続く重要な論⽂を予想できるのか

Slide 29

Slide 29 text

29 論⽂の良さの⽐較と説明: 検証⽅法 ChatGPTが,複数の論⽂を「良い順」に並べられるかを検証 “これらの論⽂を,重要な順に並べてください。 また,それぞれの論⽂について,その理由を述べてください。 Web検索は⾏わないでください。” 良い順が分かっている論⽂群とは? → 過去の主著論⽂を,主観で順位付け

Slide 30

Slide 30 text

30 加藤の主著論⽂の⼀部とその主観的重要度 重要度 略称 発表 被引⽤数 概要 1 NMR CVPR 2018 1343 メッシュのレンダリングと深層学習を合わせた意義は⼤きかった と思うが,対象が(翌年登場した)ニューラル3D表現ではないと ころに古さがある 2 VPL CVPR 2019 109 「⾃然な画像とは」の事前知識を⽤いて3D再構成を改善するとこ ろは近年の「拡散モデルで3Dモデルを綺麗に」を先取りしている が,当時の道具では効果が薄く印象が薄め 3 iBoVW CVPR 2014 108 BoVW特徴をジグソーパズルとみなすと元画像が復元できる,と いう内容は結果も⼿法も物珍しいが,直後にBoVW特徴が滅びた 4 CNN-VLM CVPR 2015 Reject 8 画像の局所特徴にニューラル⾔語モデルを適⽤して顕著性を獲得 という内容は Vision Transformer にやや似ているが,論⽂として は「ふと思いついたことをを試してみた」以上の深さがない 5 SS3O CVPR 2020 Reject 11 CIFAR-10を補助情報ナシで3D化という難しい問題に挑戦したのは 良いが,難しすぎてあまり解けていない

Slide 31

Slide 31 text

31 論⽂の良さの⽐較と説明: 実験結果 ChatGPT 重要度 主観 重要度 略称 理由 理由は正しいか? 1 1 NMR 汎⽤的で,⼿法の射程が広い 正しい 2 2 VPL ⾃然画像に使えて実⽤性が⾼い そこは重要ではない 3 5 SS3O 挑戦的なテーマで,成熟度に課題 正しいが,論⽂に記載の通り 4 3 iBoVW 定式化は独創的だが,波及効果は限定的 正しい 5 4 CNN-VLM 応⽤がやや領域特化的 正しい 的外れな意⾒も時々あるが,おおむね正しい 応⽤領域の広さを重視する傾向

Slide 32

Slide 32 text

32 重要な研究‧論⽂の予想: 検証⽅法 “この論⽂に続く研究の⽅向性として、重要(影響⼒が⾼い)と考えられるものを いくつか述べてください。Web検索は⾏わないでください。” 対象論⽂は NMR [Kato+ 2018] とし,回答はたとえば以下を想定 - 3D形状のトポロジーも含めた柔軟な最適化 (具体的には Occupancy Networks [Mescheder+ 2019] や NeRF [Mildenhall+ 2020] など ) - 物理ベースレンダリングの微分可能レンダリング (具体的には DiffRT [Li+ 2018] など ) - ⾼速で柔軟なライブラリ (具体的には Nvdiffrast [Raine+ 2020] など )

Slide 33

Slide 33 text

33 重要な研究‧論⽂の予想: 検証⽅法 ChatGPTの提案 想定内? 主観評価 トポロジー可変メッシュ⽣成 ✗ 素直な拡張。現実には「メッシュに代わる3D表現」が 開発されて覇権技術となった マルチスケール/適応的メッシュ⽣成 ✗ 同上 逆レンダリングへの応⽤ ✗ あまり⼟地勘がなく何とも⾔い難い 透けるソフトレンダリング ✗ 妙に具体的だが,まさに合致する有名な論⽂があり, その知識を述べているだけなのではなかろうか カメラポーズが未知のときの学習 ✗ 素直な拡張で,技術的な射程は狭め 視野が狭め,細部の改善が多めで,⼤きな動向を読むのは得意ではない (が,⼈間にもほぼできないところでもある)

Slide 34

Slide 34 text

34 ChatGPTで 1. 論⽂に書かれていることを読めるのか 2. 論⽂に書かれていないことを読めるのか

Slide 35

Slide 35 text

35 ChatGPTで論⽂は読めるのか まとめ 書かれていることを読む - 適切な返答が返ってくるのは,感覚的に半数くらい - 情報不⾜や翻訳ミスは所々あるが,追加質問で解決できる - 重要な情報の⽋落や誤りも多いが,それらに気付くことは困難で,危険 - 当たり前だが,図がないと理解が困難なところはどうにもならない - 当たり前だが,そもそも論⽂の記述が不適切なところはどうにもならない - ChatGPT 5 Thinking ではなく無印だと全然ダメ(付録) 書かれていないことを読む - 論⽂の良さ(影響⼒)もおおむね正しく評価できる(これはやや意外なところ) - 視野が狭め,細部にこだわりがちで,⼤きな動向の予測は得意ではない

Slide 36

Slide 36 text

36 Appendix

Slide 37

Slide 37 text

37 - 論⽂の内容を説明させるのではなく,⾃分で読みながら不明点を聞くという使い⽅は? きちんと検証してはいないですが,その使い⽅では⾮常に役に⽴つ印象です - ChatGPTとの対話的な読み⽅は,論⽂の内容を実装するときにも役に⽴つ? 実装には細部の正確な理解が不可⽋で,まだ実⽤的ではない印象です - 今回の検証で,掘り下げが⽢いところは? ただ読むだけではない,より良い情報の引き出し⽅,には⾊々ありそうですよね - 今後の論⽂読み会のあるべき姿とは? 単に情報をまとめるだけでも今のところ価値がありそうですが,将来的には,直接書かれ ていないことをいかに話すかがポイントになるのかなと思います - AIの性能が上がり続けたとき,⼈類がこの先⽣きのこるには ⾮常に鋭い質問です! 今後の課題とさせていただきます 想定質問

Slide 38

Slide 38 text

38 ChatGPT 5 無印 での評価 対象 評価 研究背景 本研究は、ディープラーニングでメッシュを扱う際の最⼤の課題である「ラスタライズの不連続性によって勾 配が伝播できない」問題を解決する。ラスタライズに対する近似勾配を提案し、微分可能なレンダラーを実 現。これにより2D画像からの3Dメッシュ再構築や、2D損失に基づく3Dモデル編集を可能にした。 新規性 本研究は、ラスタライズの不連続性を近似して勾配を計算可能にする「Neural 3D Mesh Renderer」を提案 し、メッシュをニューラルネットに統合可能にした。これにより2D損失のみで3Dメッシュ形状やテクスチャ を最適化でき、単⼀画像からの3D再構成やスタイル転写など新たな応⽤を実現した点が新規性である。 提案⼿法 頂点移動による画素⾊の不連続変化を線形補間で滑らかにし,誤差信号に基づく近似勾配を流す。遮蔽考慮‧ テクスチャ‧単純照明にも対応し,⼊⼒画像から球メッシュを変形して学習する(輪郭+平滑化損失)。 実験結果 ShapeNetで評価し,ボクセル法よりIoUが向上(13カテゴリ中10で優位)。細部表現や⽴体的なスタイル転 写∕3D DeepDreamが可能で,⾒た⽬も⾼品質。 考察‧課題 現状は⾯構造(fi)固定で位相(トポロジー)変化が不可。平滑化は⾒た⽬を良くするがIoUに影響する場合あ り。今後は動的な⾯⽣成や⾼度な照明‧テクスチャモデルの導⼊が課題。 ※不適切な部分に下線を引いた

Slide 39

Slide 39 text

39 ChatGPT 5 無印 での評価 対象 評価 研究背景 間違いはないが,表現はわかりづらい 新規性 ほぼ技術的に誤っている上,誤っていることに気付きにくい 提案⼿法 記述は正確だが,図がないと理解が困難なので,論⽂⾃体を読む⽅がよい 実験結果 複数の実験についての記述が混在していて不適切 考察‧課題 抜書きとしては正確だが,振り返ってみれば,書いてあることが適切とはいえない なんとなくのトピックを把握するのには⼗分だが,内容をきちんと理解するのは困難

Slide 40

Slide 40 text

40 ⽂殊の知恵 勉強会内でいただいた意⾒のまとめです - 概要は,⾃分が読みたいような論⽂なのかを確かめるために聞く - 概要は図を⾒る⽅がわかりやすいため,主に知らない⽤語や計算⽅法などを聞く - 要約すると信⽤ならないので「各セクションごとにまとめてください」とか聞く - 気になるところが本⽂のどこにあるかを聞く - 「こういうことは本⽂に書いてありますか?」と聞く - ChatGPTのカスタム指⽰を以下のような設定を少し⼊れています - Deep Researchなどを英語で検索していたとしても,報告は原則⽇本語で⾏う - AI 研究者が理解できる専⾨⽤語‧英語はそのまま使⽤可 - 論⽂の解説を頼まれたときは,単に本⽂を盲⽬的に読み上げるのではなく,先⾏研究との差分‧ 実験の正当性‧実⽤性などを客観的な⽬線で的確かつよりわかりやすく論じられる

Slide 41

Slide 41 text

41 ⽂殊の知恵 勉強会内でいただいた意⾒のまとめです - DeepResearchに論⽂を⾒繕ってもらう - 肯定的に答える傾向があるため「Aですか?」「Aではないですか?」と両⽅聞く - GPT5は理解しづらい要約が増えたが,5.1で少しマシになった - NotebookLMだと参照⽂献を複数指定してまとめてくれます - Geminiの⽅がよい例もあります - GPT,Claude等は出⼒⻑制限がタイトでケチって要約しようとしがちでわかりづらいこともある。「全 ⽂和訳して」とかはGeminiだと出⼒⻑の制限ほぼなく⼀括でやってくれるので便利。ワークショップ トークのyoutubeとかをNotebookLMに投げて雰囲気だけ知る

Slide 42

Slide 42 text

42 コンピュータビジョンエンジニア 募集中 https://www.preferred.jp/ja/careers/ ビジネスパートナー 募集中 https://www.preferred.jp/ja/contact/