Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Delta Lakeを用いた LLM処理基盤 / Delta Lake with LLM on Dataplatform

Delta Lakeを用いた LLM処理基盤 / Delta Lake with LLM on Dataplatform

Delta Lakeを用いた LLM処理基盤

Masatoshi Shimada

December 14, 2023
Tweet

More Decks by Masatoshi Shimada

Other Decks in Technology

Transcript

 1. %FMUB-BLFΛ༻͍ͨ
  --.ॲཧج൫ͱ׆༻ࣄྫ
  ౡాխ೥
  2023/12 Forkwell × Databricksʰ σʔλج൫ × LLM ʱษڧձ

  View full-size slide

 2. ࣗݾ঺հ
  w ౡాխ೥!TNENUT
  w σʔλϓϥοτϑΥʔϜઃܭऀ
  w גࣜձࣾ4BMFT/PXٕज़ސ໰
  w %BUBCSJDLT+&%"*.BTUFS
  w ʮ-BLFIPVTFϓϥοτϑΥʔϜͷ࡞Γํʯͷஶऀ

  View full-size slide

 3. 4BMFT/PX
  w ʮσʔλͱςΫϊϩδʔͰɺಇ͖ํΛมֵ͢ΔɻʯΛϛογϣϯʹܝ͛Δ4BB4اۀ
  w ೔ຊࢢ৔ʹ͓͚Δʮ4BB4%BUBCBTFʯͷઌۦ͚ͱͯ͠ɺ4BB4ɿ4BMFT/PXͱɺɹɹɹɹɹ
  Φ΢ϯυϝσΟΞɿ4BMFT/PX%#Λల։
  w 4BMFT/PX͸ɺࠃ಺ສࣾΛ௒͑Δاۀʹؔ͢Δࣄۀ಺༰ɺ࠾༻ɺࢿۚௐୡɺϓϨεϦ
  Ϧʔεɺలࣔձग़లͳͲͷϦΞϧλΠϜੑͷߴ͍৘ใΛߴ଎ʹݕࡧՄೳͱ͢ΔαʔϏε

  View full-size slide

 4. %FMUB-BLFͱϝμϦΦϯΞʔΩςΫνϟ
  w %FMUB-BLFɿ"QBDIF4QBSLɺ5SJOPͳͲ͔Β*0Ͱ͖ΔετϨʔδͷ࣮૷
  w λΠϜτϥϕϧػೳɺ"$*%ಛੑͷอ࣋ɺ.FSHFจͳͲΛαϙʔτ
  w ϝμϦΦϯΞʔΩςΫνϟɿσʔλΛந৅౓ॱʹॲཧ͢ΔΞʔΩςΫνϟߏ੒
  w #SPO[F4JMWFS(PMEͷॱ൪ʹཚࡶͳσʔλ͔Βҙຯͷ͋Δ৘ใʹ౷߹
  w ࠨ͔Βӈ͸ࢀর͠ͳ͍͜ͱͰσʔλॲཧͱσʔλߏ଄ͷҰ؏ੑΛҡ࣋͢Δ
  w ݪଇͱͯ͠(PMEεςʔδͷσʔλΛ.-ʢ--.ʣ΍౷ܭϞσϧ౳ʹར༻͢Δ

  View full-size slide

 5. ΞʔΩςΫνϟߏ੒
  w %BUBCSJDLTʹΑΔ&5-ॲཧͱ4DSBQZʹΑΔ$SBXMFS͕جຊࠎ֨
  w "NB[PO4্ʹ%FMUB-BLFʢ-BLFIPVTFϓϥοτϑΥʔϜʣΛߏங
  w 1PTUHSF42-3%4ʢ"VSPSBʣΛςϯϙϥϦσʔλྖҬͱͯ͠ซ༻
  w όονॲཧͷঢ়ଶ؅ཧ΍ΫϨϯδϯάલͷσʔλΛ֨ೲ͠ɺ%FMUB-BLFʹҠಈ
  w "VSPSB͸5J#·Ͱࣗಈ֦ுॖখͰ͖Δ42-ΤϯδϯͷͨΊѻ͍΍͍͢

  View full-size slide

 6. σʔλϓϥοτϑΥʔϜʹ͓͚Δཁ݅
  w σʔλϓϥοτϑΥʔϜʹ͓͚Δཁ݅ͱ͸ɺ࣍ͷཁ݅ʹେผ͞ΕΔ
  w ;Δ·͍ཁ݅ɿΞϓϦέʔγϣϯͰୡ੒͍ͨ͠;Δ·͍͕ఆٛ͞ΕΔ
  w σʔλཁ݅ɿ;Δ·͍ཁ݅ͰඞཁͱͳΔσʔλ͕ఆٛ͞ΕΔ

  View full-size slide

 7. --.ͱࣄۀυϝΠϯ
  w 4BMFT/PXͷ--.׆༻ʹ͓͚Δɺʮ;Δ·͍ཁ݅ʯͱʮσʔλཁ݅ʯ
  w ;Δ·͍ཁ݅ɿ೔ຊͷશاۀͷձࣾ֓ཁΛ4BMFT/PX্ʹද͍ࣔͨ͠
  w σʔλཁ݅ɹɿԿΒ͔ͷํ๏Ͱʮձࣾ֓ཁʯΛੜ੒ɺ֨ೲ͍ͨ͠

  View full-size slide

 8. 4BMFT/PXʹٻΊΒΕΔσʔλཁ݅
  w 4BMFT/PXͷσʔλཁ݅͸ɺʮߴ඼࣭σʔλʯ͕ઈରతʹٻΊΒΕΔ
  w ߴ඼࣭σʔλʹ͸࣍ͷΑ͏ͳཁؚ͕݅·ΕΔ
  w ࠷৽ͷσʔλɺ͔ͭɺޡΓ͕ແ͍
  w ׬શੑʢΠϯςάϥϦςΟʣ͕͋Δʢॏෳ΍ܽଛ͕ແ͍ʣ
  w จষʹ͓͍ͯ͸ɺओޠ΍໨తޠͷܽଛ͕ແ͍ɺҙຯ͕໌ྎɺޡࣈͷগͳ͞ͳͲ
  w ʮߴ඼࣭ʯͳձࣾ֓ཁΛʮਓʯ͕ੜ੒͢Δʹ͸ίετ͕՝୊ͱͳΔ
  w ਓʹΑΔ೔ຊશاۀ໿ສࣾ෼ͷձࣾ֓ཁจͷੜ੒͸ίετֻ͕͔Γ͗͢Δ
  w --.ͷ׆༻Ͱ͸ɺʮσʔλ඼࣭ͷ୲อʯͱʮίετͷ཈੍ʯͷ؍఺͔ΒखஈΛݕ౼͢Δ
  w σʔλ඼࣭ͷ୲อɿੜ੒ධՁʹΑΓาཹ·Γ཰Λࢉग़
  w ίετͷ཈੍ɿਓ݅අWT"1*ར༻අ༻ͷൺֱ

  View full-size slide

 9. --.ʹΑΔΦϖϨʔγϣϯվળ
  Πϯϓοτ จॻੜ੒ ධՁ ϦϦʔε
  ਓʹΑΔରԠɿਓ͕จॻੜ੒ͯ͠ɺਓ͕ධՁͯ͠ϦϦʔε͢Δ
  Πϯϓοτ จॻ࡞੒ ධՁ ϦϦʔε
  --.ʹΑΔରԠɿ--.͕จॻੜ੒ͯ͠ɺ--.͕ධՁͯ͠ϦϦʔε͢Δ
  w --.͸ਓʹΑΔΦϖϨʔγϣϯΛϦϓϨΠε͢ΔϞϊͱ͔ͯͭ͠͏
  w ೖྗੜ੒ධՁϦϦʔεͷ޻ఔͷ͏ͪɺੜ੒ͱධՁΛஔ͖͔͑ΒΕΔͱ૝ఆ
  w ਓͱ--.Λൺֱͯ͠ɺίετɺ඼࣭ɺ޻਺ͳͲͷ࣠Ͱൺֱ࣮ݧ͕ඞཁ
  w ࠓճͷ࣮ݧͰ͸ɺੜ੒ͱධՁͷาཹ·Γ཰ΛݕূΛ͢Δ

  View full-size slide

 10. --.ʹΑΔੜ੒ͱาཹ·Γ཰ͷ൑அ
  w --.Ͱੜ੒ͨ͠จॻΛɺ--.ͰධՁͤ͞Δ
  w ੜ੒ϓϩϯϓτʮҎԼͷจষ͔Βୈࡾऀࢹ఺Ͱձࣾ֓ཁจΛੜ੒͍ͯͩ͘͠͞ɻఏڙ
  αʔϏε΍اۀઆ໌ʹॏ఺Λஔ͖ɺຊจதʹແ͍΋ͷ͸Ұ੾࢖༻͠ͳ͍Ͱ͍ͩ͘͞ɻʯ
  w ධՁϓϩϯϓτʮاۀͷࣄۀɾ঎඼ɾαʔϏε͕໌֬ͳ৔߹ʹ఺ɺاۀ৘ใ͕ୈࡾऀ
  ࢹ఺Ͱॻ͔Ε͍ͯΔ৔߹ʹ఺ɺೖྗจॻʹձࣾ֓ཁͱແؔ܎ͳ෺ؚ͕·Ε͍ͯͳ͍৔
  ߹ʹ఺ɺ߹ܭ఺Ͱ࠾఺͍ͯͩ͘͠͞ɻ·ͨɺ೔ຊޠͱͯ͠ద੾Ͱ͸ͳ͍৔߹͸఺ͱ
  ͍ͯͩ͘͠͞ɻʯ
  ɹɹ˞ੜ੒ϓϩϯϓτͱධՁϓϩϯϓτ͸ུ֓ʢ࣮ࡍʹར༻ͨ͠෺Ͱ͸ͳ͍ʣ
  w ࣮ݧͰ͸ɺੜ੒͸0QFO"*HQUUVSCPɺධՁ͸(PPHMF1B-.Ͱߦ͏
  w ੜ੒ͱҟͳΔ--.ͰධՁ͢Ε͹ɺճ౴ͷ٬؍ੑͱਖ਼౴ੑ͕ߴ·Δ͜ͱΛظ଴
  w ධՁ݁Ռͷ඼࣭ͷ࠷ऴ֬ೝ͸ɺਓͷखʹΑΓߦ͏
  w ࣌ؒ΍ίετ౳ͷ౎߹ʹΑΓɺ্هҎ֎ͷ૊߹ͤͰͷൺֱ࣮ݧ͸͍ͯ͠ͳ͍
  Πϯϓοτ จॻ࡞੒ ධՁ ֬ೝ

  View full-size slide

 11. νΣοΫΦϖϨʔγϣϯ
  ʮגࣜձࣾ999͸ɺ೥ʹઃཱ͞Εͨ૯߹খചۀͰ͢ɻ
  ɹզʑ͸ɺళฮΛॴ༗͓ͯ͠ΓʢҎԼུʣʯ
  ʮ఺ʯ
  ʮධՁͰ͸఺ͱݴ͍ͬͯΔ͕ɺҰਓশؚ͕·ΕΔͨΊɺ/(ɻʯ
  w ਓͷखʹΑΔ࠷ऴ֬ೝͷ݁Ռɺੜ੒จॻʹओޠͷޡΓ͕සൃ͞ΕɺධՁ͔Β΋࿙Ε͍ͯͨ
  w ੜ੒͞ΕͨςΩετʹ͸ɺҰਓশͰ͋Δʮզʑʯؚ͕·Εɺୈࡾऀࢹ఺ʹͳ͍ͬͯͳ͍
  w ੜ੒ܥͰୈࡾऀࢹ఺ͰͷهࡌΛࢦࣔɺධՁܥͰ΋ୈࡾऀࢹ఺ͰͷධՁΛࢦ͍ࣔͯ͠Δ
  w ੜ੒ܥͰจ๏ϛεɺධՁܥͰ࠾఺ϛεͷ໰୊͕֬ೝ͞Εͨ
  w ϓϩϯϓτΤϯδχΞϦϯά΍Πϯϓοτͷमਖ਼Ͱվળ͞ΕΔ͕ʮ׬શʯʹ͸ղফ͠ͳ͍

  View full-size slide

 12. าཹ·Γ཰ͷࢉग़ʢ࣌఺ʣ
  ˙಺༰͕ਖ਼͍͔͠ͷ؍఺Ͱਓ͕֬ೝ
  ˙೔ຊޠͱͯ͠ਖ਼͍͔͠ͷ؍఺Ͱਓ͕֬ೝ
  --.ʹΑΔධՁ఺ ਖ਼͍͠ ޡΓ ਖ਼ׂ͍͠߹


  ˋ


  --.ʹΑΔධՁ఺ ਖ਼͍͠ ޡΓ ਖ਼ׂ͍͠߹
  w --.ʹΑΔධՁͷ࠷ߴ఺఺Ͱ͸ɺ಺༰͕ਖ਼ׂ͍͠߹͕໿ˋɺશମͷาཹ·Γ཰͸໿ˋ
  w าཹ·Γ཰ධՁ఺ͷਖ਼͍݅͠਺ʢ݅ʣશମ݅਺ʢ݅ʣ໿ˋ
  w ࠷ߴ఺Ͱ΋ਓͷνΣοΫͰ͸ɺ໿ˋʢ݅ ݅݅
  ʣͷޡΓ͕ൃݟ͞Εͨ

  View full-size slide

 13. --.ͷग़ྗ݁Ռʹର͢Δߟ࡯
  w ੜ੒Ͱ͸ɺҧ࿨ײͷ͋Δʮ஌ࣝʯΛؚΉจষʢձࣾ֓ཁจʣΛੜ੒͍ͯ͠Δ
  w Ͳͷձࣾʹ΋౰ͯ͸·ΔҰൠతͳ಺༰
  w ఺ɿʮϓϨεϦϦʔε΍ٻਓ৘ใ΋ܝࡌ͍ͯ͠·͢ɻʯ
  w ෳ਺஍Ҭʹల։͍ͯ͠ΔձࣾͰ஍Ҭൣғ͕ݶఆ͞Ε͍ͯΔ
  w ఺ɿʮࡳຈͰ࿝ਓϗʔϜͱհޢαʔϏεΛల։͓ͯ͠Γʙʯ
  w ࣄۀ಺༰͕ͳ͘ɺܦӦཧ೦ͷղઆͱͳ͍ͬͯΔ
  w ఺ɿʮۚ༥ػؔͱͯ͠ߦಈྗΈͳ͗ΔίϛϡχςΟόϯΫΛ࣮ݱ͠·͢ʂʯ
  w ӕΛ෇͍͍ͯΔʢτοϓγΣΞͰ͸ͳ͍ʣ
  w ఺ɿʮѪ஌ݝʹຊࣾΛஔ͘YYYͷτοϓγΣΞاۀͰ͢ɻʯ
  w യવͱ͍͗ͯ͢͠Δ
  w ఺ɿʮϢχʔΫͳ੡඼Λѻ͏ࠃ಺ϚʔέςΟϯάاۀͰ͢ɻʯ

  View full-size slide

 14. --.Λຊ൪ద༻͢ΔͳΒͲͷύλʔϯʁ
  Πϯϓοτ จॻ࡞੒ ධՁ ֬ೝ ϦϦʔε
  --.ʴਓͷ֬ೝɿ--.͕จॻੜ੒ͯ͠ɺ--.͕ධՁ͠ɺਓ͕֬ೝͯ͠ϦϦʔε͢Δ
  Πϯϓοτ จॻੜ੒ ධՁ ϦϦʔε
  ਓʹΑΔରԠɿਓ͕จॻੜ੒ͯ͠ɺਓ͕ධՁͯ͠ϦϦʔε͢Δ
  Πϯϓοτ จॻ࡞੒ ධՁ ϦϦʔε
  --.ʹΑΔରԠɿ--.͕จॻੜ੒ͯ͠ɺ--.͕ධՁͯ͠ϦϦʔε͢Δ

  View full-size slide

 15. ύλʔϯผͷൺֱ
  w ਓʹΑΔରԠɿ
  w ίετ݅౰ͨΓͷඅ༻ॲཧ݅਺
  w ݅౰ͨΓͷඅ༻ʹ࣌څ࣌ؒ౰ͨΓͷॲཧ݅਺
  w ࣌څԁɺ݅ฏۉ෼ͱԾఆ͢Δͱɺ݅౰ͨΓԁ
  w ૯ֹɿສ݅ԁʢ࡞੒ධՁʣສԁ
  w ޻਺ɿ೔࣌ؒ࿑ಇɺ݄೔ۈ຿ͷΞϧόΠτ͕ɺਓͰ໿೥͔͔ΔݟࠐΈ
  ߴֹͳίετʹՃ͑ɺਓһ֬อ΍๲େͳ޻਺͕໰୊ɹɹɹɹ㱺ίετ✕ɿ඼࣭˓ɿ޻਺✕
  w --.ʹΑΔରԠɿ
  w ίετ"1*ίετϓϩϯϓτ࡞੒ਓ݅අ
  w ݅౰ͨΓͷඅ༻"1*ίʔϧճʢੜ੒ධՁʣ࠷େͰԁͱԾఆ
  w ສ݅ͷ࠷ߴ఺֫ಘʹඞཁͳ฼ूஂສʢาཹ·Γ཰ʣ໿ສ݅
  w "1*ίετສ݅ԁສԁ
  w ϓϩϯϓτ࡞੒ਓ݅අ࡞ۀਓ਺ͱظؒΛؑΈͯτʔλϧສԁݟࠐΈ
  w ૯ֹɿສԁສԁສԁ
  ૬ରతʹ҆Ձ͕ͩɺग़ྗσʔλ඼࣭ͱධՁਫ਼౓͕՝୊ɹɹɹ㱺ίετ˓ɿ඼࣭✕ɿ޻਺˓
  w --.ਓʹΑΔ֬ೝɿ
  w ίετ"1*ίετϓϩϯϓτ࡞੒ਓ݅අ֬ೝඅ༻
  w ֬ೝඅ༻ສ݅ԁʢධՁඍमਖ਼ʣສԁ
  w ૯ֹɿສԁສԁສԁສԁ
  ίετͱ඼࣭͕όϥϯε͞ΕΔ͕ɺߴֹͳ֬ೝඅ༻͕՝୊ɹ㱺ίετ˚ɿ඼࣭˓ɿ޻਺˚

  View full-size slide

 16. --.ͷ࣮ӡ༻ʹ޲͚ͯ
  w σʔλͱ--.ΛγʔϜϨεʹ઀ଓ͢Δॲཧج൫͸ɺ%FMUB-BLFͰ༰қʹ࣮ݱͰ͖Δ
  w ϝμϦΦϯΞʔΩςΫνϟͷઃܭࢥ૝͸ɺ--.ʹ઀ଓ͠΍͍͢
  w (PMEεςʔδʹ͋ΔॴఆͷσʔλΛҰׅͰ--.ʹධՁͤ͞ΔͳͲ΋Մೳ
  w ੜ੒ܥͱධՁܥΛ෼͚Δߏ੒͸ɺਓʹΑΔνΣοΫ޻਺ͷ࡟ݮʹͭͳ͕Δ
  w ੜ੒ܥɺධՁܥͷϛε͸͋Δఔ౓৫ΓࠐΉඞཁ͕͋Δʢ࣮ݧͰ͸ਖ਼౴཰ˋʣ
  w ಘ఺͕௿͍෺͸ഁغɺಘ఺͕ߴ͍෺͸νΣοΫͱमਖ਼Λࢪͯ͠ϦϦʔε
  w ࣌఺ͷ--.Ͱ͸ɺੜ੒ͱධՁڞʹϋϧγωʔγϣϯʢޡ৘ใͷੜ੒ʣͷ໰୊͕͋ͬͨ
  w --.ʹੜ੒ͤͨ͞จষ͕ɺຊ౰ʹʮߴ඼࣭ʯͰ͋Δ͔͸ɺ--.͚ͩͰ͸൑அͰ͖ͳ͍
  w ಘ఺͕ߴ͍෺ʹ΋/(ؚ͕·ΕΔͨΊɺݱঢ়ͷ--.͸ʮਓʯʹΑΔνΣοΫ͕ඞཁ
  w ࣮ӡ༻Ͱ͸ɺʮਓʯʹΑΔߍਖ਼࣌ʹɺߴ඼࣭ͳจॻੜ੒ΛΞγετ͢Δͷʹ໾ཱͭʢ$PQJMPUʣ
  w Ξγετ͞Ε͍ͯΔ͏ͪʹɺʮਓʯͷจষྗ΍ޠኮྗ͕޲্͢Δ
  w --.͸ਓͷΦϖϨʔγϣϯΛʮΞγετʯ͢ΔϞϊͱͯ͠࢖͏ͱྑ͍
  w --.͸ɺӕΛؚΉʮ஌ࣝͷੜ੒૷ஔʯͱͯ͠ɺɹɹɹɹɹɹɹɹɹɹɹɹɹɹɹɹɹɹɹɹɹɹɹ
  ਓͷʮ஌ܙʯͷੜ੒ΛڧྗʹΞγετ͢Δ

  View full-size slide

 17. ͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠

  View full-size slide

 18. "QQFOEJYɿ%*,8Ϟσϧͱ--.׆༻
  w %*,8ϐϥϛουͷ֓೦Λಋೖ͢Δͱ৘ใωοτϫʔΫʢσʔλʣͷཧղ͕༰қʹͳΔ
  w σʔλ͸ɺ%BUBʢσʔλʣ*OGPSNBUJPOʢ৘ใʣ,OPXMFEHFʢ஌ࣝʣ8JTEPNʢ஌ܙʣ
  ͷॱʹॲཧ΍ֶशΛܦͯ৘ใωοτϫʔΫ͕ߴີ౓Խ͢Δ
  w ͢ͳΘͪɺσʔλΛ༻͍ͯॲཧ΍ֶश͢Δ͜ͱͰϥϯμϜੑ͕ݮগ͠ɺ৘ใωοτϫʔΫ
  ͕ߴີ౓Խ͢Δ͜ͱͰɺՁ஋΍ҙຯͷ͋Δ৘ใͱͯ͠ར༻ՄೳͱͳΔ
  w ,OPXMFEHFʢ஌ࣝʣ͸੩తͳֶश݁Ռɺ8JTEPNʢ஌ܙʣ͸ಈతͳՄೳੑ΁ͷ໛ࡧͰ͋Δ
  w ݱஈ֊Ͱͷ"*΍--.͕࣮ݱͰ͖ΔྖҬ͸ɺ੩తͳ,OPXMFEHFʢ஌ࣝʣྖҬʹཹ·Δ
  w ͨͱ͑͹ɺݱ࣌఺ͷ--.͸໌೔ͷఱؾΛ༧૝͢Δ͜ͱ͕ग़དྷͳ͍
  w ͨͩ͠ɺ8FCΫϩʔϦϯάͨ݁͠Ռͱ૊Έ߹ΘͤΕ͹ग़ྗՄೳʢ༧૝͸͍ͯ͠ͳ͍ʣ
  w ϝμϦΦϯΞʔΩςΫνϟͱ--.Λ૊Έ߹ΘͤΔ৔߹͸ɺ
  w Πϯϓοτɿ4JMWFSʢ3F
  fi
  OFE%BUBʣPS(PMEʢ'FBUVSF"HH%BUBʣ
  w Ξ΢τϓοτɿԿΒ͔ͷ໾ʹཱͭ,OPXMFEHFʢ஌ࣝʣ
  w ݱ࣌఺ͷ--.͸ɺ஌ࣝͷੜ੒ʹ͸ޮՌత͕ͩɺ஌ܙʹ͸ࢸ͍ͬͯͳ͍

  View full-size slide