ChatGPTで論⽂は読めるのか

by Spatial AI Network

Embed

Start on current slide

Slide 1

Slide 1 text

Spatial AI 勉強会 ChatGPTで論⽂は読めるのか Preferred Networks, Inc. 加藤⼤晴

Slide 2

Slide 2 text

2 - 業界や⽬的によって異なるところが多そうなトピックです。このスライドは，あくまで我々の周辺，我々の⽤途に限った話になります - とにかく⽂字が多いです。お急ぎの⽅は太字と表だけご覧ください - 実験に⽤いたモデルは ChatGPT 5 Thinking です - リンク類はすべて Speaker Deck の説明欄に記載していますおことわり

Slide 3

Slide 3 text

3 ⾃⼰紹介 ― 加藤⼤晴（かとうひろはる） Preferred Networks, Inc. リサーチャー / エンジニアリングマネージャー 3Dコンピュータビジョンに関する研究開発最近の講演など - GPU UNITE 特別講演 (2025) 『エンタメとAIのための3Dパラレルワールド構築』 - ⼟⽊学会応⽤⼒学委員会応⽤数理‧AIセミナー (2025) 『深層学習と3Dキャプチャ‧3Dモデル⽣成』 - 東京⼤学⼤学院情報理⼯学系研究科『知能情報論』(2024) 『三次元再構成』 [Web] [Google Scholar] [Twitter] [E-Mail]

Slide 4

Slide 4 text

4 論⽂読み会に参加し続けること⼗数年，時に主催者として，正直思うのは… - 情報を読み取るだけなら，⾃⼒で読めばいい気も…？ - 書かれていないことが聞けるとありがたい - たくさんの論⽂の中から何故これを選んだのか - どれくらいイケてるのか，それは何故か - この研究分野はこの後どうなりそうなのか - 懇親会が本番，論⽂解説パートはそのための話題提供という気も - …というか今どき，だいたいChatGPTで済んじゃうんじゃない？論⽂読み会って必要？試してみた（今⽇のテーマ）

Slide 5

Slide 5 text

5 ChatGPTで 1. 論⽂に書かれていることを読めるのか 2. 論⽂に書かれていないことを読めるのか

Slide 6

Slide 6 text

6 検証⽅法 ― ツイッターからいろいろあって，よくわからない

Slide 7

Slide 7 text

7 検証⽅法 ― Deep Research

Slide 8

Slide 8 text

8 研究者向けのプロンプト例⽤途プロンプト研究背景を把握するこの論⽂の研究背景と、解決しようとしている課題を簡潔に説明してください。新規性‧貢献を理解するこの研究の新規性や貢献は何ですか？先⾏研究と⽐べて特に斬新な点を教えてください。提案⼿法を要約する論⽂で提案された⼿法の内容を、主要なポイントが分かるように要約してください。実験結果を要約するこの論⽂の実験結果から得られた主要な知⾒や結果を簡潔にまとめてください。考察‧今後の課題を把握する論⽂の考察の要点と、著者が⾔及している限界や今後の課題を教えてください。これらは落合陽⼀先⽣の論⽂まとめフォーマット*とほぼ対応していて，納得感が⾼い *「どんなもの？」「先⾏研究と⽐べてどこがすごい？」「技術や⼿法のキモはどこ？」「どうやって有効だと検証した？」「議論はある？」「次に読むべき論⽂は？」から成る。研究背景，全体要約，次に読む論⽂に違いがある。

Slide 9

Slide 9 text

9 実⽤化技術者向けのプロンプト例⽤途プロンプト実装⼿順を抽出する論⽂に記載された⼿法を実装するための⼿順を、箇条書きで挙げてください。モデル構成‧ハイパーパラメータを整理する論⽂のモデル構成と主要なハイパーパラメータを整理して説明してください。疑似コードを⽣成する論⽂で提案されたアルゴリズムを、疑似コード形式で⽰してください。応⽤例を検討するこの論⽂の技術は実際にどのような応⽤例（ユースケース）に使えそうですか？論⽂中の記述に基づいて説明してください。性能指標を⽐較する論⽂で報告された主要な性能指標と、従来⼿法との⽐較結果を要約してください。コンピュータビジョンでは「モデル」や「アルゴリズム」を扱わない論⽂も多く* 想定する論⽂の幅が狭めなのは気になるところ *特にデータセット提案やハードウェア提案など

Slide 10

Slide 10 text

10 試してみた例題: “Neural 3D Mesh Renderer” [Kato+ 2018] ✔ 著者なので，内容をよく知っている ✔ 発表してしばらく経ち，⻑所や短所がほぼ明らかになっている ✗ 論⽂⾃体に書かれていないことを，ChatGPT が知っている可能性がある

Slide 11

Slide 11 text

11 試してみた: 背景と課題指⽰: この論⽂の研究背景と、解決しようとしている課題を簡潔に説明してください。出⼒: 2D画像から3Dを学習するにはレンダリングをNNに統合する必要があるが、メッシュ→画像のラスター化は離散で逆伝播が遮られる。メッシュはコンパクトで幾何操作に適する⼀⽅、この⾮微分性が障壁。評価: 誤りとはいえないが，⼤事なところで，理解のために必要な情報が不⾜している。やや⽇本語が不⾃然なところも。（⼤前提の「2D画像から3Dを学習」がいったい何を指すのか，近い分野の研究者でもほぼ理解できないはず。「離散で」は通じなくはないが，「離散的な操作が含まれ」という表現が⾃然。） ※不適切な部分に下線を引いた

Slide 12

Slide 12 text

12 試してみた: 新規性指⽰: この研究の新規性や貢献は何ですか？先⾏研究と⽐べて特に斬新な点を教えてください。出⼒: ラスター化に対する近似勾配を導⼊し、頂点だけでなくテクスチャ‧照明‧カメラにも勾配を流すNeural Rendererを提案。3D監督なしの単画像メッシュ復元と、2D損失のみでの3Dスタイル転送∕DeepDreamを初実現。評価: 内容も表現もほぼ適切。「関連論⽂の知識があれば伝わる」くらいの難易度なので，論⽂読み会などではもう少し丁寧に説明したいところではある。（⾃分なら，「3D監督なしの単画像メッシュ復元」は「画像を⽴体化して3Dメッシュを出⼒するモデルを，3Dデータを使わずに学習」，「2D損失のみでの3Dスタイル転送」は「画像のスタイルを3Dモデルに転写」と書く。やや⻑いか。） ※不適切な部分に下線を引いた

Slide 13

Slide 13 text

13 試してみた: 技術の要点指⽰: 論⽂で提案された⼿法の内容を、主要なポイントが分かるように要約してください。出⼒: 順伝播は通常のラスタライズ、逆伝播で画素変化を辺近傍の頂点移動に線形近似し、可視⾯にのみ勾配を割当てる近似を設計。復元では642頂点の球を変形し、シルエットIoU損失と⾯の平滑化正則化を併⽤して学習。評価: ほぼ正確な記述だが，そもそも図がないと理解が困難。ChatGPT を使うより，図とその説明をさっと読む⽅が良さそう。（「復元では」と突然⾔われると⾯⾷らうが，前のページと合わせるとわかりやすくなる。） ※不適切な部分に下線を引いた

Slide 14

Slide 14 text

14 試してみた: 実験と知⾒指⽰: この論⽂の実験結果から得られた主要な知⾒や結果を簡潔にまとめてください。出⼒: ShapeNet13カテゴリで単画像復元を評価し、体素IoUで13中10カテゴリでボクセル法を上回る。airplane/chair/display等で顕著。平滑化は⾒た⽬改善の⼀⽅でIoUが僅かに低下。スタイル転送∕DeepDreamも形状に沿った編集を確認。評価: 複数の実験があるが，それらの結果と評価をほぼ適切に要約できている。（「体素」はボクセルを意味する中国語らしい。「形状に沿った」は「スタイル画像の形状に沿った」でないと意味が通じにくいが，完全に間違いとはいえない。） ※不適切な部分に下線を引いた

Slide 15

Slide 15 text

15 試してみた: 考察指⽰: 論⽂の考察の要点と、著者が⾔及している限界や今後の課題を教えてください。出⼒: メッシュは体素のキューブ状アーチファクトがなく外観が良いが、球変形では位相変更ができず多様トポロジーに弱い。改善には頂点—⾯接続{ﬁ}の動的⽣成が必要。car/lamp/tableなど複雑形状で精度が低い点も課題。評価: 翻訳の問題はあるが，抜書きとしては正確。ただ，その後の研究動向とは⼀致しない。これは論⽂の記述の⽅に問題があるといえる。（「頂点—⾯接続{ﬁ}」って何だろう？それはそうとトポロジーの問題は重要で，ニューラル場の導⼊で解決された。その他の重要な課題は，後続研究の傾向から眺めると，ここに記載されていることではなく，物理ベースレンダリングへの対応や，使いやすいライブラリの整備など。） ※不適切な部分に下線を引いた

Slide 16

Slide 16 text

16 研究者向けのプロンプト例まとめ対象評価研究背景 2D画像から3Dを学習するにはレンダリングをNNに統合する必要があるが、メッシュ→画像のラスター化は離散で逆伝播が遮られる。メッシュはコンパクトで幾何操作に適する⼀⽅、この⾮微分性が障壁。新規性ラスター化に対する近似勾配を導⼊し、頂点だけでなくテクスチャ‧照明‧カメラにも勾配を流すNeural Rendererを提案。3D監督なしの単画像メッシュ復元と、2D損失のみでの3Dスタイル転送∕DeepDreamを初実現。提案⼿法順伝播は通常のラスタライズ、逆伝播で画素変化を辺近傍の頂点移動に線形近似し、可視⾯にのみ勾配を割当てる近似を設計。復元では642頂点の球を変形し、シルエットIoU損失と⾯の平滑化正則化を併⽤して学習。実験結果 ShapeNet13カテゴリで単画像復元を評価し、体素IoUで13中10カテゴリでボクセル法を上回る。 airplane/chair/display等で顕著。平滑化は⾒た⽬改善の⼀⽅でIoUが僅かに低下。スタイル転送 ∕DeepDreamも形状に沿った編集を確認。考察‧課題メッシュは体素のキューブ状アーチファクトがなく外観が良いが、球変形では位相変更ができず多様トポロジーに弱い。改善には頂点—⾯接続{ﬁ}の動的⽣成が必要。car/lamp/tableなど複雑形状で精度が低い点も課題。 ※不適切な部分に下線を引いた

Slide 17

Slide 17 text

17 研究者向けのプロンプト例まとめ対象評価研究背景理解のために必要な重要な情報が不⾜。やや⽇本語が不⾃然なところも新規性やや難しめの書き⽅ではあるが，内容はほぼ適切提案⼿法記述は正確だが，図がないと理解が困難なので，論⽂⾃体を読む⽅がよい実験結果複数の実験があるが，それらの結果と評価をほぼ適切に要約できている考察‧課題抜書きとしては正確だが，振り返ってみれば，書いてあることが適切とはいえないほぼ正確で適切だが，ところどころ情報不⾜や翻訳ミスが⾒られるそこを詳しく聞いてみるのは？

Slide 18

Slide 18 text

18 研究者向けのプロンプト例さらに聞くこの論⽂については，ChatGPTと対話するだけで⼗分に要点を掴むことができるといえるほぼすべてについて，正確かつわかりやすい解説を出⼒以下、分野外の⼈にもやさしく説明してください - 「2D画像から3Dを学習」ってどういうこと？ - 「離散で逆伝播が遮られる」ってどういうこと？ - 「形状に沿った編集」ってどういうこと？ - 「体素」って何？ - 「頂点—⾯接続{ﬁ}」って何？

Slide 19

Slide 19 text

19 実⽤化技術者向けのプロンプト例まとめ対象評価実装⼿順粒度がバラバラで情報も⼤幅に不⾜していて，明らかに不適切擬似コード細部は不正確だが，内容の理解には⼗分有⽤モデル構成誤りはないが，そもそも論⽂の要点がモデル提案ではない応⽤可能性正確に抜書きできているが，書かれていないことを想像してほしいところ性能指標の解釈正確に抜書きできていて，内容理解に有⽤よっしゃ使うぞ，となると論⽂に記載がないこと（ソースコードの公開の有無，ライセンス，使い⽅，必要な計算機環境，実⾏時間，⼿元のタスクとの相性，その性質を踏まえた限界，…）が重要なので，そもそも「ChatGPTで論⽂を読む」との相性が良くない

Slide 20

Slide 20 text

20 他の論⽂では？最近の Spatial AI 勉強会で PFN メンバーが取り上げた論⽂を対象に評価 ✔ 他⼈が書いた最新の論⽂を読む，という実際の論⽂読み会に近いシナリオ野⼝さん紹介 [資料] Lyra: Generative 3D Scene Reconstruction via Video Diﬀusion Model Self-Distillation (Bahmani+ 2025) 松岡さん紹介 [資料] HyRF: Hybrid Radiance Fields for Memory-eﬃcient and High-quality Novel View Synthesis (Wang+ 2025)

Slide 21

Slide 21 text

21 他の論⽂で: Lyra 対象評価研究背景⾼品質な3D/4D環境を⼤規模に⽣成したいが、従来の再構成は正確な姿勢や多視点実写に依存し、動的シーンは多カメラが必要。動画拡散は汎化⼒は⾼い⼀⽅で2Dに留まり明⽰3Dがない。本論⽂は両者を橋渡しする枠組みを提案する。新規性カメラ制御型動画拡散を教師、3DGSデコーダを⽣徒とする⾃⼰蒸留で、多視点実写を不要化。動画“潜在空間”で学習し、単画像/単動画から明⽰的3D/4Dを⼀発⽣成。寄与として①⾃⼰蒸留枠組み②動的4D拡張 ③各タスクでSOTA達成を⽰す。提案⼿法⼊⼒画像/動画とサンプルした複数軌道を条件に動画潜在zを⽣成。RGB復号（教師）と3DGS復号（⽣徒）を並列に⽤意し、3DGSレンダをRGBと⼀致させて⾃⼰蒸留。潜在空間で多視点を融合し、Plücker/時間埋め込みと動的データ拡張で4Dにも対応。実験結果単画像→3DではRealEstate10K/DL3DV/Tanks&TemplesでPSNR‧SSIM向上、LPIPS低下と既存法を⼀貫して上回る。Lyra静的/動的でもBTimer(GEN3C)を⼤差で上回る。アブレーションから深度損失‧LPIPS‧多視点融合‧Mamba2が品質/速度に寄与。考察‧課題性能と⼀貫性は教師たる動画拡散の容量に制約されるため、より強⼒な動画モデルで⼤規模‧⾼整合な⽣成が可能に。⾃動回帰の導⼊や、動きとトラッキングの内在化で動作品質の改善を⽰唆。応⽤はロボティクス等だが誤⽤リスクにも配慮。 ※不適切な部分に下線を引いた By 野⼝さん

Slide 22

Slide 22 text

22 他の論⽂で: Lyra 対象評価研究背景実データの多様性の不⾜など重要な点が⽋落。表現が不適切な部分もある新規性間違ったことは書いていないが、内容を理解するには情報が不⾜している提案⼿法実データが不要であることが抜けている。Plucker埋め込みで4D対応は誤り。これだけでは理解が困難実験結果間違ってはいないが、実データについての実験が抜けている考察‧課題論⽂からの抜き出しはできているが，⼀部翻訳が不適切概要は理解できるが，重要な情報が抜けている By 野⼝さん

Slide 23

Slide 23 text

23 他の論⽂で: HyRF 対象評価研究背景 NeRF は⾼画質だが低速。対して 3D Gaussian Splatting は実時間だが、各ガウシアンが視線依存⾊や形状を多パラメータ（約59）で持ちメモリ過⼤。格⼦型ニューラル圧縮は⾼周波細部を失いがち。⼩容量‧⾼精細‧実時間の両⽴が課題。新規性 HyRF は「明⽰＋暗黙」のハイブリッド。位置‧等⽅スケール‧不透明度‧拡散⾊のみを明⽰保持し、残りを⼆つの格⼦型ニューラル場（幾何：スケール/不透明度/回転、外観：視線依存⾊）で推定。視錐台外プリカリングと背景球マップを併⽤し、3DGS⽐で最⼤20×⼩容量かつ実時間。提案⼿法三段構成。①視錐台外ガウシアンを事前カリングし計算削減。②可視点の位置でニューラル場をクエリし、幾何（スケール‧不透明度‧回転）と外観（視線依存⾊）を推定、明⽰パラメータと合成して⾼周波を復元。③背景マップを球に投影し、前景スプラッティングとα合成。実験結果実写3データセットで最⾼のPSNR/SSIMと3DGS並のFPSを両⽴し、モデルサイズはNeRF系に近く⼤幅縮⼩（表1）。3DGS⽐で品質向上かつサイズ12×超縮⼩、Scaﬀold-GS⽐で1.5‒5×⼩型‧⾼速。都市規模でも品質とサイズで優位（表3）。圧縮版も既存法を画質‧サイズで上回る。考察‧課題明⽰‧暗黙の分離と背景統合が遠景や⾼周波の保全に有効と⽰す⼀⽅、未解決としてエイリアシングと表⾯再構成誤りを指摘。さらに⾼速描画は⾼性能GPU依存で、Web/統合GPUでの同等効率は今後の課題。 ※不適切な部分に下線を引いた By 松岡さん

Slide 24

Slide 24 text

24 他の論⽂で: HyRF 対象評価研究背景⼗分に要約できている新規性数値は怪しい提案⼿法細かい部分が読み解けない実験結果数値は怪しい考察‧課題元々の論⽂の考察や課題の議論が不⼗分であるためか，訳語がおかしい要約としては悪くないが，数値が怪しかったり，どこから出てきたかわからない単語がある By 松岡さん

Slide 25

Slide 25 text

25 論⽂に書かれていることを読めるのか観測のまとめと議論 (N=3) - 抜書きと翻訳で⼗分な箇所（背景‧新規性‧議論など）は，半分くらいは適切に処理可能 - 半分くらいの出⼒は不適切 - 理解不能な出⼒が多い - 不適切な訳語が多い - 重要な情報の⽋落が多い - ⼿法の詳細や数値はあやしい - ⼿法や実験，数値など，複数の情報の統合と要約が必要な箇所は全体にあやしい - ChatGPT で⼗分読める論⽂も，まったく不⼗分な論⽂もある - まだ，⼈間の⽅がだいぶ優れていそうこれらは，追加質問でほぼ解消できるこれらは，不適切であることに気付くことができない

Slide 26

Slide 26 text

26 個⼈的な着地点感覚的に，ChatGPT は - 曖昧検索には優れている → 抜き書きは任せられる - 翻訳（表⾯的な⾔い換え）も得意だが，所々あやしい → ⽇英併記が望ましい - 要約（複雑な⾔い換え）はしばしば信⽤できない → そこは⾃⼒でということから， “先⾏研究と違うところは？関連する記述を抜き書きした上で⽇本語訳してください” という使い⽅をすると効率がよい

Slide 27

Slide 27 text

27 ChatGPTで 1. 論⽂に書かれていることを読めるのか 2. 論⽂に書かれていないことを読めるのか

Slide 28

Slide 28 text

28 論⽂に書かれていないことを読めるのか読み会では聞けるが，論⽂に書かれていないこと - たくさんの論⽂の中から何故これを選んだのか - どれくらいイケてるのか，それは何故か - この研究分野はこの後どうなりそうなのかこれらは，以下ように（やや強引に）読み替えることができる 1. ChatGPTは，論⽂の良さの⽐較と，その説明ができるのか 2. ChatGPTは，その論⽂に続く重要な論⽂を予想できるのか

Slide 29

Slide 29 text

29 論⽂の良さの⽐較と説明: 検証⽅法 ChatGPTが，複数の論⽂を「良い順」に並べられるかを検証 “これらの論⽂を，重要な順に並べてください。また，それぞれの論⽂について，その理由を述べてください。 Web検索は⾏わないでください。” 良い順が分かっている論⽂群とは？ → 過去の主著論⽂を，主観で順位付け

Slide 30

Slide 30 text

30 加藤の主著論⽂の⼀部とその主観的重要度重要度略称発表被引⽤数概要 1 NMR CVPR 2018 1343 メッシュのレンダリングと深層学習を合わせた意義は⼤きかったと思うが，対象が（翌年登場した）ニューラル3D表現ではないところに古さがある 2 VPL CVPR 2019 109 「⾃然な画像とは」の事前知識を⽤いて3D再構成を改善するところは近年の「拡散モデルで3Dモデルを綺麗に」を先取りしているが，当時の道具では効果が薄く印象が薄め 3 iBoVW CVPR 2014 108 BoVW特徴をジグソーパズルとみなすと元画像が復元できる，という内容は結果も⼿法も物珍しいが，直後にBoVW特徴が滅びた 4 CNN-VLM CVPR 2015 Reject 8 画像の局所特徴にニューラル⾔語モデルを適⽤して顕著性を獲得という内容は Vision Transformer にやや似ているが，論⽂としては「ふと思いついたことをを試してみた」以上の深さがない 5 SS3O CVPR 2020 Reject 11 CIFAR-10を補助情報ナシで3D化という難しい問題に挑戦したのは良いが，難しすぎてあまり解けていない

Slide 31

Slide 31 text

31 論⽂の良さの⽐較と説明: 実験結果 ChatGPT 重要度主観重要度略称理由理由は正しいか？ 1 1 NMR 汎⽤的で，⼿法の射程が広い正しい 2 2 VPL ⾃然画像に使えて実⽤性が⾼いそこは重要ではない 3 5 SS3O 挑戦的なテーマで，成熟度に課題正しいが，論⽂に記載の通り 4 3 iBoVW 定式化は独創的だが，波及効果は限定的正しい 5 4 CNN-VLM 応⽤がやや領域特化的正しい的外れな意⾒も時々あるが，おおむね正しい応⽤領域の広さを重視する傾向

Slide 32

Slide 32 text

32 重要な研究‧論⽂の予想: 検証⽅法 “この論⽂に続く研究の⽅向性として、重要（影響⼒が⾼い）と考えられるものをいくつか述べてください。Web検索は⾏わないでください。” 対象論⽂は NMR [Kato+ 2018] とし，回答はたとえば以下を想定 - 3D形状のトポロジーも含めた柔軟な最適化（具体的には Occupancy Networks [Mescheder+ 2019] や NeRF [Mildenhall+ 2020] など） - 物理ベースレンダリングの微分可能レンダリング（具体的には DiﬀRT [Li+ 2018] など） - ⾼速で柔軟なライブラリ（具体的には Nvdiﬀrast [Raine+ 2020] など）

Slide 33

Slide 33 text

33 重要な研究‧論⽂の予想: 検証⽅法 ChatGPTの提案想定内？主観評価トポロジー可変メッシュ⽣成 ✗ 素直な拡張。現実には「メッシュに代わる3D表現」が開発されて覇権技術となったマルチスケール/適応的メッシュ⽣成 ✗ 同上逆レンダリングへの応⽤ ✗ あまり⼟地勘がなく何とも⾔い難い透けるソフトレンダリング ✗ 妙に具体的だが，まさに合致する有名な論⽂があり，その知識を述べているだけなのではなかろうかカメラポーズが未知のときの学習 ✗ 素直な拡張で，技術的な射程は狭め視野が狭め，細部の改善が多めで，⼤きな動向を読むのは得意ではない（が，⼈間にもほぼできないところでもある）

Slide 34

Slide 34 text

34 ChatGPTで 1. 論⽂に書かれていることを読めるのか 2. 論⽂に書かれていないことを読めるのか

Slide 35

Slide 35 text

35 ChatGPTで論⽂は読めるのかまとめ書かれていることを読む - 適切な返答が返ってくるのは，感覚的に半数くらい - 情報不⾜や翻訳ミスは所々あるが，追加質問で解決できる - 重要な情報の⽋落や誤りも多いが，それらに気付くことは困難で，危険 - 当たり前だが，図がないと理解が困難なところはどうにもならない - 当たり前だが，そもそも論⽂の記述が不適切なところはどうにもならない - ChatGPT 5 Thinking ではなく無印だと全然ダメ（付録）書かれていないことを読む - 論⽂の良さ（影響⼒）もおおむね正しく評価できる（これはやや意外なところ） - 視野が狭め，細部にこだわりがちで，⼤きな動向の予測は得意ではない

Slide 36

Slide 36 text

36 Appendix

Slide 37

Slide 37 text

37 - 論⽂の内容を説明させるのではなく，⾃分で読みながら不明点を聞くという使い⽅は？きちんと検証してはいないですが，その使い⽅では⾮常に役に⽴つ印象です - ChatGPTとの対話的な読み⽅は，論⽂の内容を実装するときにも役に⽴つ？実装には細部の正確な理解が不可⽋で，まだ実⽤的ではない印象です - 今回の検証で，掘り下げが⽢いところは？ただ読むだけではない，より良い情報の引き出し⽅，には⾊々ありそうですよね - 今後の論⽂読み会のあるべき姿とは？単に情報をまとめるだけでも今のところ価値がありそうですが，将来的には，直接書かれていないことをいかに話すかがポイントになるのかなと思います - AIの性能が上がり続けたとき，⼈類がこの先⽣きのこるには⾮常に鋭い質問です！今後の課題とさせていただきます想定質問

Slide 38

Slide 38 text

38 ChatGPT 5 無印での評価対象評価研究背景本研究は、ディープラーニングでメッシュを扱う際の最⼤の課題である「ラスタライズの不連続性によって勾配が伝播できない」問題を解決する。ラスタライズに対する近似勾配を提案し、微分可能なレンダラーを実現。これにより2D画像からの3Dメッシュ再構築や、2D損失に基づく3Dモデル編集を可能にした。新規性本研究は、ラスタライズの不連続性を近似して勾配を計算可能にする「Neural 3D Mesh Renderer」を提案し、メッシュをニューラルネットに統合可能にした。これにより2D損失のみで3Dメッシュ形状やテクスチャを最適化でき、単⼀画像からの3D再構成やスタイル転写など新たな応⽤を実現した点が新規性である。提案⼿法頂点移動による画素⾊の不連続変化を線形補間で滑らかにし，誤差信号に基づく近似勾配を流す。遮蔽考慮‧ テクスチャ‧単純照明にも対応し，⼊⼒画像から球メッシュを変形して学習する（輪郭＋平滑化損失）。実験結果 ShapeNetで評価し，ボクセル法よりIoUが向上（13カテゴリ中10で優位）。細部表現や⽴体的なスタイル転写∕3D DeepDreamが可能で，⾒た⽬も⾼品質。考察‧課題現状は⾯構造(ﬁ)固定で位相（トポロジー）変化が不可。平滑化は⾒た⽬を良くするがIoUに影響する場合あり。今後は動的な⾯⽣成や⾼度な照明‧テクスチャモデルの導⼊が課題。 ※不適切な部分に下線を引いた

Slide 39

Slide 39 text

39 ChatGPT 5 無印での評価対象評価研究背景間違いはないが，表現はわかりづらい新規性ほぼ技術的に誤っている上，誤っていることに気付きにくい提案⼿法記述は正確だが，図がないと理解が困難なので，論⽂⾃体を読む⽅がよい実験結果複数の実験についての記述が混在していて不適切考察‧課題抜書きとしては正確だが，振り返ってみれば，書いてあることが適切とはいえないなんとなくのトピックを把握するのには⼗分だが，内容をきちんと理解するのは困難

Slide 40

Slide 40 text

40 ⽂殊の知恵勉強会内でいただいた意⾒のまとめです - 概要は，⾃分が読みたいような論⽂なのかを確かめるために聞く - 概要は図を⾒る⽅がわかりやすいため，主に知らない⽤語や計算⽅法などを聞く - 要約すると信⽤ならないので「各セクションごとにまとめてください」とか聞く - 気になるところが本⽂のどこにあるかを聞く - 「こういうことは本⽂に書いてありますか？」と聞く - ChatGPTのカスタム指⽰を以下のような設定を少し⼊れています - Deep Researchなどを英語で検索していたとしても，報告は原則⽇本語で⾏う - AI 研究者が理解できる専⾨⽤語‧英語はそのまま使⽤可 - 論⽂の解説を頼まれたときは，単に本⽂を盲⽬的に読み上げるのではなく，先⾏研究との差分‧ 実験の正当性‧実⽤性などを客観的な⽬線で的確かつよりわかりやすく論じられる

Slide 41

Slide 41 text

41 ⽂殊の知恵勉強会内でいただいた意⾒のまとめです - DeepResearchに論⽂を⾒繕ってもらう - 肯定的に答える傾向があるため「Aですか？」「Aではないですか？」と両⽅聞く - GPT5は理解しづらい要約が増えたが，5.1で少しマシになった - NotebookLMだと参照⽂献を複数指定してまとめてくれます - Geminiの⽅がよい例もあります - GPT，Claude等は出⼒⻑制限がタイトでケチって要約しようとしがちでわかりづらいこともある。「全⽂和訳して」とかはGeminiだと出⼒⻑の制限ほぼなく⼀括でやってくれるので便利。ワークショップトークのyoutubeとかをNotebookLMに投げて雰囲気だけ知る

Slide 42

Slide 42 text

42 コンピュータビジョンエンジニア募集中 https://www.preferred.jp/ja/careers/ ビジネスパートナー募集中 https://www.preferred.jp/ja/contact/