2023.2.26(Sun)に開催するDSL (データサイエンス特化型学生団体)主催のData Science Meet Upで発表する資料です。
⾦融とAIInstitution for a Global Society株式会社㆖席研究員阿部⼀也%4-cσʔλαΠΤϯεಛԽܕֶੜஂମओ࠵%BUB4DJFODF.FFU6Q 4VO
View Slide
݄ʹࡳຈ͔Β౦ژʹҠॅɻݱࡏڭҭˍ)3اۀͰϒϩοΫνΣʔϯΛ׆༻ͨ͠8FCϓϩδΣΫτͷςοΫϦʔυΛ୲ɻւಓʢখʣੜ·ΕͰɺࡀͱࡀͷ່ɺࡀͷଙ͕͍Δɻझຯཱྀߦͱਆࣾ८Γɻ1ZUIPOػցֶशɺϒϩοΫνΣʔϯɺΫϥυɺۚ༥ɺιϑτΣΞ։ൃʹؔ͢Δ*5ίϛϡχςΟͷελοϑʢओʹίϯςϯπاը୲ʣɺઌٕज़ɺϏδωε৫վֵͷΠϕϯτاըɺࣥචͳͲͷݸਓ׆ಈΛߦ͏ɻίϛϡχςΟӡӦελοϑ4UBSU1ZUIPO$MVCɺϑΟϯςοΫཆίϛϡχςΟ΄͔ଟमɺࣥචɺ༁ɺࠪಡɾ4QBSLʹΑΔ࣮ફσʔλղੳ ʕେنσʔλͷͨΊͷػցֶशࣄྫूɾϚϯΨͱਤղͰεοΩϦΘ͔Δ ϓϩάϥϛϯάͷ͘͠Έɾ࣮ફ ۚ༥σʔλαΠΤϯε ӅΕͨߏΛ͋ͿΓग़ͭ͢ͷΞϓϩʔνɾςετۦಈ1ZUIPOɾ͋ͨΒ͍͠1ZUIPOʹΑΔσʔλੳͷڭՊॻɾΈΜͳͷϒϩοΫνΣʔϯɾϑΟϯςοΫΤϯδχΞཆಡຊɾ1ZUIPOεΩϧΞοϓڭՊॻɾ"GUFS("'"ࢄԽ͢Δੈքͷະདྷਤɾ࣮ફγφϦΦɾϓϥϯχϯάѨ෦ Ұʢ͋ΜΜʣ*OTUJUVUJPOGPSB(MPCBM4PDJFUZגࣜձ্ࣾ੮ݚڀһProfile
ۚ༥σʔλαΠΤϯεˍΤϯδχΞ
"*ͷ• ػցֶश .BDIJOF-FBSOJOH• ࣗવݴޠॲཧ /BUVSBM-BOHVBHF1SPDFTTJOH• ίϯϐϡʔλʔϏδϣϯ $PNQVUFS7JTJPO• Իೝࣝ 4QFFDI3FDPHOJUJPO• ϩϘςΟΫε 3PCPUJDT• ҙࢥܾఆ %FDJTJPO.BLJOH• σʔλϚΠχϯά %BUB.JOJOH• ڧԽֶश 3FJOGPSDFNFOU-FBSOJOH• ਐԽతܭࢉ &WPMVUJPOBSZ$PNQVUBUJPO• ࣝදݱͱਪ ,OPXMFEHF3FQSFTFOUBUJPOBOE3FBTPOJOH
%FFQ-FBSOJOH*OUFSWJFXTػցֶशɾਓೳͷͰब৬͢ΔͨΊʹɺ໘࣮ٕࢼݧͰΘΕΔࣝɾεΩϧɻͷதڃऀ͚ͷఆ࣭ͱղ͕ऩ͞Ε͍ͯΔɻֶجૅɺػցֶशɺਂֶशɺਂֶशͷԠ༻ͱ෯͘Χόʔ͍ͯ͠·͢ɻ໘ͰΑ͘ग़Δ࣭Λཏ͍ͯ͠ΔΒ͍͠ɻhttps://arxiv.org/pdf/2201.00650.pdf
ؾʹͳΔτϐοΫ技術名 説明Stable Diffusion データの分散表現を⾼次元空間で効果的に表現する⽅法。従来の拡散法と⽐較して性能が向上している。計算量を抑えることができ、画像⽣成、⾳声処理、⾃然⾔語処理などの分野で有⽤なアプローチとなっている。ChatGPT ⾃然⾔語処理のタスクに⽤いられるGPT-3を基にした対話システム。多様なトピックに対応するために⼤量のデータで事前学習されており、会話の流れを保持して⾃然な対話を⽣成することができる。⾳声認識・⽣成 ⾳声データを扱う分野で重要な技術。Whisper、HEAR、data2vec、data2vec 2.0などの最新の⼿法は、⾳声認識・⽣成の精度を⾼めることができる。⾃然⾔語処理の分野での利⽤にも応⽤されている。⾔語モデル ⾃然⾔語処理の分野で主要な技術の1つ。GPT-3、LaMDA、PaLM、Megatron-Turing NLGなどの最新の⾔語モデルは、巨⼤なデータセットで学習されており、テキスト⽣成、質問応答、機械翻訳などのタスクに成功している。オープンソースAI⼈⼯知能の研究や開発において、⾃由にアクセスできるソフトウェアの利⽤を可能にするもの。HuggingFace、Eleuther AI、LAION、Stability.AIなどのオープンソースAIフレームワークは、⾼度な⾃然⾔語処理タスクを扱うことができる。GPT-NeoX-20BやBLOOMなどの⼤規模⾔語モデルもオープンソースで公開されている。拡散モデル(画像・ビデオ⽣成)画像⽣成、ビデオ⽣成などのタスクに有⽤な深層学習モデル。画像のピクセル値の進化を表現することで、⾼品質な画像⽣成が可能になる。特にDiffusion Probabilistic Modelsは、モデルを学習させるときに⾼速化され、時間とともにデータを拡散することで、⾼品質な画像・ビデオ⽣成が可能になっている。拡散モデル(その他のドメイン)⾃然⾔語処理にも応⽤されており、Diffusion-LMやDiffuSeqといったモデルが開発されている。これらのモデルは、⾔語モデルを学習するために⽤いられる。Diffusion-LMは、⾔語モデルのサンプリングを⾼速化し、⾃然な⽂章の⽣成が可能になっている。DiffuSeqは、DNAの塩基配列を予測することができ、遺伝⼦の研究に応⽤されている。強化学習エージェントが環境に対して⾏動を選択することで、報酬を最⼤化することを学習する⼿法。Decision Transformer、TrajectoryTransformer、Gatoなどの最新の⼿法は、深層学習モデルを使⽤して、より⾼度なタスクを解決することができる。特に、Gatoは、複数のタスクに対応することができる「万能エージェント」として注⽬を集めている。マルチモーダル・制御 複数の⼊⼒情報を扱う技術。超マルチモーダル・超マルチタスク「万能エージェント」は、複数のタスクを同時に実⾏し、⾳声、映像、テキストなどの複数の⼊⼒に対応することができる。これにより、より⾼度なタスクを解決することができる。計算量削減ディープラーニングモデルの⾼速化や軽量化を実現する技術。DiNA、Token Merging、ConvNeXt、NeRF、Chinchillaなどの最新の技術は、⾼速かつ⾼精度なモデルを構築することができる。特に、Chinchillaは、70億のパラメータを持つ巨⼤な⾔語モデルを⾼速かつ効率的に処理できることが可能であり、より⼤規模なデータセットを⽤いた⾃然⾔語処理のタスクにも適⽤することができる。また、計算量削減技術は、エネルギー消費量の削減にもつながる。
$IBU(15⼈間との対話に最適化された強⼒な⾔語モデルであり、⼈間のフィードバックに基づく強化学習を使⽤して微調整されています。これにより、ユーザーの要望に合わせた応答を⽣成することが可能となっています。RLHFは、⼈間からのフィードバックによって⾔語モデルを微調整する⼿法であり、DeepMindやAnthropicなど他の企業・研究者もこの⼿法を研究しています。ChatGPTは事実関係を間違えたり、有害・差別的な⾔葉を出⼒する問題が依然として存在しており、また誰でも簡単に⾼品質な⽂章を⽣成できるため、不正利⽤が社会問題化しています。草の根的AIコミュニティであるEleuther AIの⼀部でも、RLHFによる強化学習を⽤いたオープンソースの実装・モデルがリリースされていますが、OpenAIが従来⼿法の10倍以上の予算を費やしてChatGPTを訓練しているという噂もあり、これらの技術を再現することは容易ではない。このような⾔語モデルのアラインメント問題や、⼈間の嗜好・利害に合わせた応答を⽣成する技術を研究し、より⾼品質な応答を⽣成することが求められています。また、ChatGPTのような⾔語モデルを活⽤した⾃動⽂章⽣成技術は、様々な分野で利⽤されるため、データサイエンティストは、この技術を最⼤限に活⽤するための研究を⾏うことが重要です。ਓؒϑΟʔυόοΫʹΑΔݴޠϞσϧͷ࠷దԽ$IBU(15ͷͱෆਖ਼ར༻ͷࣾձԽݴޠϞσϧͷߴ࣭Ԡੜʹ͚ͨݚڀ՝
4UBCMF%JGGVTJPO任意のテキストから⾼品質な画像を⽣成することができる技術で、AI業界やアート業界に⼤きなインパクトを与えました。この技術は、テキストと画像の相互作⽤をより深く理解することができる可能性があり、従来の⼿法とは異なり、テキストと画像の間に相互作⽤を持たせることができます。この点が注⽬された理由です。拡散モデルLDMが⽤いられており、これは、2020年に提案された「ノイズ除去拡散確率モデル」(DDPM)に基づいています。DDPMは、ノイズ画像を徐々にノイズを除去していくことで、⾼品質な画像を⽣成することができます。拡散モデルは、DDPMを発展させたものであり、より⾼速で⾼品質な画像⽣成が実現できます。画像⽣成において拡散モデルが重要な⼿法であることや、U-NetやViTなどの画像⽣成や画像処理に⽤いられる⼿法との関連性にあります。これらの⼿法は、データサイエンティストが理解すべき重要な技術です。Stable Diffusionの応⽤範囲は、ECサイトや医療分野など、ビジネスや社会の様々な分野で期待されています。ςΩετ͔Βߴ࣭ը૾ੜٕज़֦ࢄϞσϧʹΑΔߴߴ࣭ը૾ੜը૾ੜɾॲཧʹ͓͚Δ4UBCMF%JGGVTJPOͷॏཁੑ
DALL·E 22022年2⽉に公開した⼈⼯知能のモデルで、⾃然⾔語の指⽰に応じて画像を⽣成することができる。以前に公開されたDALL·Eというモデルの改良版で、より⾼品質で多様な画像が⽣成できる。Whisper⽂字起こしサービスとして公開した無料の⾳声認識モデルです。Webから収集した68万時間分の多⾔語⾳声データを教師付きデータで学習させており、⾼い精度で⼊⼒した⾳声を⽂字起こしが可能。0QFO"*ͦͷଞͷϓϩμΫτ
ۚ༥ͰνϟϨϯδ͖͢͜ͱ❏未知のデータ開拓❏⼤規模コンピューティングによる解析❏お互いにプライバシーを確保したままで分析
ʲએɿۙެ։ʳ<݄>ۚ༥ͱ0QFO"*https://fintech-engineer.connpass.com/event/276472