ChatGPTとNoteableによる科学技術情報分析

Slide 1

Slide 1 text

ChatGPTとNoteableによる科学技術情報分析 @hayataka 2023年5⽉31⽇

Slide 2

Slide 2 text

はじめに ChatGPTによって、プログラミングスキル関係なく、誰もが⾃然⾔語でデータ・テキストマイニングを実⾏できるようになった。しかし、素のChatGPTに分析・集計をお願いしても、出⼒された数値が間違っていることが多い。したがって、分析作業をChatGPTにしてもらうには、出⼒結果の信頼性をどう担保するのかが課題だと感じていた。そんな中、『ChatGPTプラグイン「Notable」だけでデータ分析コンペに挑戦してみた話[1]』という記事を読んだ。Noteable[2]というChatGPTのプラグインを活⽤すれば、上記の課題は解決し、より⾼度なことができるのではないかと考えた。そこで本資料は、私が⽇々⾏っている科学技術情報分析を事例に、ChatGPT+Noteableでどんなことができるか、下記の分析プロセスごとに試した記録である。汚い状態のままであるが、実際のChatGPTとのやり取り[3]と⽣成されたスクリプト[4]も共有したい。 [1] ChatGPTプラグイン「Notable」だけでデータ分析コンペに挑戦してみた話 https://qiita.com/ot12/items/ba74fa150e160d94a71f [2] Noteable https://noteable.io/ [3] ChatGPTとのやり取り https://chat.openai.com/share/35cd3f1b-5e8d-4f7c-98c3-50ebd40d7a47 [4] Noteableによって⽣成されたスクリプト https://app.noteable.io/published/a50d12fa-3224-4419-9e1b-acaa9cfbb24d/arxiv_data_analytics 論⽂情報収集書誌情報分析テキストマイニング arXivから指定した検索条件にヒットするプレプリント情報を収集する。時系列推移、カテゴリ集計、著者集計を実施する。キーフレーズ抽出・集計、クラスタリングと解釈、俯瞰可視化(⼆次元可視化)を実施する。 P2 P3-4 P5-7

Slide 9

Slide 9 text

おわりに最後に雑多な所感をまとめておく。 • 本資料で実施した実験⾃体は1.5時間程度。知識がない⼈が1から⾃⼒でプログラミングしてやるのと⽐べると、断然早いと思う。 • ChatGPTによって、プログラミングができない⼈でも、データへのアクセスやデータ・テキスト分析が容易にできるようになった。 • ⼀定レベルのエラーは⾃動的に修復・実⾏してくれる。このエラー回復能⼒はありがたい。 • 素のChatGPTだけでは分析・集計は任せられないが、Noteableを活⽤すればスクリプトを⽣成して実⾏してくれるので、信頼性と確認のしやすさが増した。ただ、⽣成されたコードが依頼したものと違うことがあるので、⾃分で確認できる⼒は必要である。 • みんなが⾔う通り、「⾃分のやりたいことがある」、「それを的確な指⽰を出せる」、「出⼒結果を確認してフィードバックや⾃分で修正できる」、「結果を考察・解釈できる（考察・解釈もAIと対話的に⽀援してもらえる）」ことは、⼈間側にとって⼤切なことだと感じた。そのためには、データ分析、アルゴリズム、プログラミング等の知識が重要であることは変わらない。 • プログラミングを使ったデータ分析にチャレンジしたいけど、なかなか⼿を出せてなかった⼈にとって良い学習環境である。⾃分のやりたいことを ChatGPT + Noteableで⽣成してもらい、スクリプトを⾒て勉強するのは良いのではないか。 • こちらから⼿段を提⽰せずに、逆に良い⼿段を提案して欲しいと依頼すると、どこまでより良いものを作り上げてくれるのか。「試⾏錯誤の⾃動化」能⼒に興味がある。 • arXivだけでなく、APIを提供している他の科学技術情報DBも試してみたい。例えば、PubMed、Lens、OpenAlex、Semantic Scholarなど。特許系DBも試してみたいので、API取得できるものをご存知の⽅は教えてください。

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text