Slide 1

Slide 1 text

SREのための テレメトリー技術の探究 YAPC::Fukuoka 2025   ゲストセッション Yuuki Tsubouchi (@yuuk1t)   さくらインターネット研究所 — モニタリングSaaS開発からAIOps・AIインフラまで

Slide 2

Slide 2 text

IUUQTTQFBLFSEFDLDPNNP[OJPOEFWFMPQUPTVSWJWFZBQDIBLPEBUFLFZOPUF TMJEF ೥ͷπΠʔτ ʢݱ஍ʹ͸͍ͳ͍౰ਓͷ༷ࢠʣ 2

Slide 3

Slide 3 text

来歴 3 2013 2019 2020 2025 ݱࡏ モニタリング SaaS SRE さくら インターネット 研究所 はてな 京都 大 学 大 学院 情報学研究科 博 士 (情報学) 取得 AIOps AI Supercomputer eBPF YAPC::Asia 2013/2015 スピーカー

Slide 4

Slide 4 text

趣旨 4 yuuk1の「探究」の道 ͜Ε·Ͱͷ୳ڀͷաఔͱɺ૯·ͱΊͱͯ͠ͷത࢜ݚڀɺ͜Ε͔Βͷ୳ڀ 43&ͷͨΊͷςϨϝτϦʔٕज़ΛϝΠϯςʔϚͱͯ͠ɺ ࣋ͪؼΓ Λڞ༗͢Δ ݸਓͷ୳ڀͷ࢓ํͷͻͱͭͷྫΛ঺հ͢Δ͜ͱͰɺ Έͳ͞·ͷ୳ڀͷؾ͖ͮʹͳΕ͹޾͍Ͱ͢ :"1$͸اۀΑΓݸ΁য఺ ˞ࢲݟ

Slide 5

Slide 5 text

 5 アジェンダ    はじめに モニタリ ングSaaS 開発 博 士 研究  まとめ  今後の 探究

Slide 6

Slide 6 text

 6 1. はじめに    はじめに 博 士 研究  まとめ  モニタリ ングSaaS 開発  今後の 探究

Slide 7

Slide 7 text

テレメトリーは基礎 of 基礎 … reliability is the most fundamental feature of any product: a system isn’t very useful if nobody can use it! By Michael R. Lyu By Ben Treynor Sloss ৴པੑͷجૅ͸ϞχλϦϯά ϓϩμΫτɾ޻ֶͷجૅ͸৴པੑ ςϨϝτϦʔʹΑΓ࣮ݱ Reliability is probably the most important factor to claim for any engineering discipline, … 7 1. ͸͡Ίʹ <>#FUTZ#FZFS FUBM l4JUFSFMJBCJMJUZFOHJOFFSJOHIPX(PPHMFSVOTQSPEVDUJPOTZTUFNTz 0`3FJMMZ.FEJB  <>.JDIBFM3-ZV l4PGUXBSF3FMJBCJMJUZ&OHJOFFSJOH"3PBENBQ '04& <> <>

Slide 8

Slide 8 text

テレメトリー界の 大 まかな歴史 1960 2025 2000 1990 1980 2010 2020 ੍ޚ޻ֶ 04ͱ/8ػثͷ ܭ૷ͱՄࢹԽ 6/*9ͱΠϯλʔωοτ ΦϒβʔόϏϦςΟ --. 0CTFSWBCJMJUZ ϞχλϦϯά 4BB4ͷීٴ ౷߹؂ࢹ 044 54%#ͷ εέʔϦϯά ෼ࢄτϨʔγϯά ඪ४Խ Ϋϥ΢υ θϩίʔυ ܭ૷ ܧଓతϓϩ ϑΝΠϦϯά 43& 2015 ϩάసૹͱ෼ੳ 8 1. ͸͡Ίʹ

Slide 9

Slide 9 text

テレメトリー年表 1960-2005 1960 ຌྫ ࿦จ 044 4BB4 ϓϩτίϧɾ࢓༷ ,BMNBO *'"$ 1980 4ZTMPH 1990 92 4/.1 W #1' 98 .35( 2001 T'MPX 04 2005 #PSHNPO .VOJO 99 (BOHMJB 33%UPPM $PMMFDUE 03 02 ;BCCJY /BHJPT %5SBDF 4ZTUFN5BQ %ZOBUSBDF 4QMVOL 0CTFSWBCJMJUZ 64&/*9XJOUFS -*4" -*4" 1BSBMMFM$PNQVU  1. ͸͡Ίʹ ͦͷଞ

Slide 10

Slide 10 text

テレメトリー年表 2006-2015 %BQQFS $"$. ;JQLJO 1SPNFUIFVT (PSJMMB 7-%# F#1' 95SBDF /4%* 2007 2010 2015 2008 /FX3FMJD %BUBEPH 2012 .BDLFSFM 2014 "QQ%ZOBNJDT (SBQIJUF *O fl VY%# 4UBUT% 0QFO54%# 2011 'MVFOUE (SBGBOB 2013 ,BJSPT%# 1JWPU 5SBDJOH 4041 4FOTV #$$  1. ͸͡Ίʹ ຌྫ ࿦จ 044 4BB4 ϓϩτίϧɾ࢓༷ ͦͷଞ

Slide 11

Slide 11 text

テレメトリー年表 2016-2025 0QFO5SBDJOH )POFZDPNC 0QFO5FMFNFUSZ .POBSDI 7-%# 05F- 1SP fi MF 2016 2025 18 0QFO.FUSJDT H/.* 17 19 2020 24 0#* ΦϒβʔόϏϦςΟͷීٴ 0QFO$FOTVT +BFHFS 21 "*0QT %FFQ'MPX 4*($0.. -PLJ 7JDUPSJB.FUSJDT 23 1ZSPTDPQF 5IBOPT $PSUFY 4JHOP[ 4LZ8BMLJOH 0QFO--.FUSZ 0QFO-*5 7JDUPSJB-PHT 22 8$ 5SBDF $POUFYU .%#  1. ͸͡Ίʹ ຌྫ ࿦จ 044 4BB4 ϓϩτίϧɾ࢓༷ ͦͷଞ

Slide 12

Slide 12 text

年表のその先は? ʁ 12 1. ͸͡Ίʹ 2025 2020 --. 0CTFSWBCJMJUZ ඪ४Խ θϩίʔυ ܭ૷ ܧଓతϓϩ ϑΝΠϦϯά

Slide 13

Slide 13 text

年表のその先は? 2025 2020 --. 0CTFSWBCJMJUZ ඪ४Խ θϩίʔυ ܭ૷ ܧଓతϓϩ ϑΝΠϦϯά ςϨϝτϦʔքͷ4%(T ࢀর͞Εͳ͍σʔλͷॲཧʹίετΛཁ͢Δ "*GPS43& ো֐؅ཧ΁ͷ"*.-ద༻ 0CTFSWBCJMJUZGPS"*4ZTUFNT (16ΫϥελͷΦϒβʔόϏϦςΟ޲্ $POUSPMMBCJMJUZ 4-*ʹجͮࣗ͘཯੍ޚ 13 1. ͸͡Ίʹ

Slide 14

Slide 14 text

 14 2. モニタリングSaaS開発    はじめに 博 士 研究  まとめ  モニタリ ングSaaS 開発 今後の 探究

Slide 15

Slide 15 text

2013年 サーバ管理ツールの開発 ςοΫΧϯϑΝϨϯεॳొஃ IUUQTTQFBLFSEFDLDPNZVVLJUIBUFOBGBMTFTBCBHVBOMJUVSVGBMTFIVB 15 2. ϞχλϦϯάSaaS։ൃ ͸ͯͳͷΞϧόΠτͰ1FSM Ͱॻ͔Εͨαʔό؅ཧπʔ ϧΛॻ͘೔ʑ :"1$"TJB5PLZP ϨδετϦ 33%UPPM ϫʔΧʔ αʔό /BHJPT ಺෦%/4 ݖҖαʔό 4/.1 "1* "1*

Slide 16

Slide 16 text

2014年 Mackerelのリリース IUUQTNBDLFSFMJPKBCMPHFOUSZ ϦϦʔεจʹl*NNVUBCMF*OGSBTUSVDUVSFz  l$IBU0QTzͳͲ͕Έ͑ɺझΛײ͡Δ ॳ୅43&ͱͯ͠ܞΘΔ ᶃॳظߏஙͱͦͷޙ ͷ೥ͷӡ༻ ᶄΫϥ΢υҠߦͱ ࣌ܥྻ%#։ൃ 16 2. ϞχλϦϯάSaaS։ൃ

Slide 17

Slide 17 text

2014年 Mackerelの時系列DB IUUQTCMPHZVVLJPFOUSZIJHIQFSGPSNBODFHSBQIJUF (SBQIJUFΛಋೖ͠ɺਫฏ෼ׂͳ͠Ͱɺ࠷ऴతʹ'VTJPOJPࣾ੡JP%SJWFΛ ༻͍ͯLXSJUF*014Λࡹ͘ ͔͠͠ɺ̍ϝτϦοΫ̍ϑΝΠϧߏ੒ɺ͔͠΋ະདྷͷϑΝΠϧྖҬΛ༧Ί֬อ͢Δ w ฒྻʹେྔͷϑΝΠϧʹॻ͖ࠐΉͨΊɺ*0Ϛʔδ͕Ͱ͖ͳ͍ॻ͖ࠐΈޮ཰͕௿͍ w ίϯςφ࣌୅Ͱ͸େྔͷϝτϦΫε͕ੜ੒͞ΕΔσΟεΫ༰ྔΛѹഭ 17 2. ϞχλϦϯάSaaS։ൃ

Slide 18

Slide 18 text

2017年 時系列DBの刷新 IUUQTTQFBLFSEFDLDPNZVVLJUUIFSFCVJMEPGUJNFTFSJFTEBUBCBTFPOBXT -4.USFFΠϯσοΫε΍֊૚ԽετϨʔδʢ44% )%%ʣʹ৮ൃ͞Εɺ αʔόʔϨεΞʔΩςΫνϟΛجʹ֊૚Խ͞Εͨ࣌ܥྻ%#Λ୤ߏஙͨ͠ 18 2. ϞχλϦϯάSaaS։ൃ

Slide 19

Slide 19 text

2. ϞχλϦϯάSaaS։ൃ モニタリングSaaSでの経験を通じて w αʔόɺϝτϦΫεɺΞϥʔτͷΈͰ͸ͦͷγεςϜͷ͜ͱ͸Θ͔Βͳ͍ w γεςϜσβΠϯɺϢʔβʔߦಈͷ܏޲ɺۭؒతߏ଄ʢґଘؔ܎ʣɺΞ ϥʔτରԠͷཤྺɺΞϓϦͷυϝΠϯ஌ࣝͳͲ w ϓϩμΫτίϯηϓτ͕ॏཁͰ͋Δ͜ͱʹؾͮ͘ w ϞχλϦϯά͕؆୯ʹͰ͖·͢ɺҎ্ͷͳʹ͔ w 044؂ࢹπʔϧ4BB4΁Ҡߦ͢Δ৔߹͸͜ΕͰ΋Α͔͕ͬͨʜ w ίϯηϓτ͕ͳ͍ͱઑΒͳ͍ 19

Slide 20

Slide 20 text

2017年 コンセプトへの傾倒 *14+0/& ؂ࢹ͔Β؍ଌͱ࣮ݧ΁ ʢPZ͕ྲྀ෍͞ΕΔલʂʣ Մ؍ଌੑͱՄ੍ޚੑͷ֓೦Λ஌Δ ߃ৗతʹଟ༷ͳো֐ͱෛՙΛى͜͠ɺςϨϝτ ϦʔΛ΋ͱʹߏங͞ΕΔ਺ཧϞσϧΛܧଓతʹௐ ੔͢ΔγϛϡϨʔλʔͷΑ͏ͳ΋ͷ αΠόωςΟΫε΍ҰൠγεςϜཧ࿦ɺ੍ޚ޻ֶͷ ຊΛಡΈ࢝ΊΔ IUUQTTQFBLFSEFDLDPNZVVLJUJQTKPOFZVVLJ ϓϩΞΫςΟϒʹγεςϜΛ؍Δ 20 2. ϞχλϦϯάSaaS։ൃ

Slide 21

Slide 21 text

2018年 論 文 執筆 IUUQTCMPHZVVLJPFOUSZXSJUJOHUIFUTECQBQFS ࣮຿Λ࿦จʹؼணͤ͞Δ͜ͱ͸೉͍͕͠ɺݴޠԽͷ܇࿅ͱͯ͜͠ΕҎ্͸ͳ͍ ৽͍͠ൃ૝Ͱ΋ͷΛߟ͑ΔͨΊʹɺֶज़ݚڀʹߦ͖ண͘ 21 2. ϞχλϦϯάSaaS։ൃ ΤϯδχΞ೴ʹΑΔ҉໧ͷલఏΛյ͢ඞཁ͕͋Δ

Slide 22

Slide 22 text

2019年 さくらインターネット研究所へ ͦͯ͠ॴ௕ͷનΊ΋͋ Γɺཌ೥ʹത࢜՝ఔ΁ 22 IUUQTSFTFBSDITBLVSBBEKQ lத௕ظతͳࢹ఺Λ࣋ͪɺ ʙ೥ޙʹ࣮༻Խ͕ظ଴ ͞ΕΔٕज़Λ୳ٻ͠ͳ͕ ΒɺϝϯόʔҰਓͻͱΓ ͕ʮ໘ന͍ʯͱײ͡Δ ςʔϚʹ௅ઓ͠ɺ૑଄త ͳΠϊϕʔγϣϯΛੜΈ ग़͠·͢ɻz

Slide 23

Slide 23 text

 23 3. 博 士 研究   はじめに 博 士 研究  まとめ  モニタリ ングSaaS 開発  今後の 探究

Slide 24

Slide 24 text

研究の最初期段階 エンジニア時代の思いつきの寄せ集めからスタート 24 ࣌ܥྻ%# 💡ϝτϦΫεʢ࣌ؒʣͱτϙϩδʢۭؒʣͰͳʹ͔Ͱ͖ͳ͍͔ʁ ωοτϫʔΫίʔϧάϥϑ ʁ ʁ 3. ത࢜ݚڀ

Slide 25

Slide 25 text

時系列DBのKVSの書き込み効率 ϝϞϦϕʔεKVS ϝϞϦ͸ϥϯμϜΞΫ ηεޮ཰ʹ༏ΕΔͨ ΊɺϋογϡදΛ࠾༻ σΟεΫϕʔεKVS ϝτϦΫε਺͕૿େ͢Δ = KVSͷΩʔ਺͕૿େ͢Δ Memory Disk ฏߧ໦ɾεΩο ϓϦετͳͲͷ ιʔτࡁΈߏ଄ ιʔτࡁΈͷͨ ΊσΟεΫΞΫ ηεޮ཰͕ߴ͍ O(logn) ॻ͖ࠐΈ Flush ॻ͖ࠐΈ Memory O(k) σΟεΫ্ʹ͸σʔλ Λอ࣋͠ͳ͍ɻ ʢίϛοτϩάΛআ͘ʣ Disk File HBase, Cassandra, … Redis, Valkey, Dragonfly, … 3. ത࢜ݚڀ ↳ ಺෦ΦϒδΣΫτͷ؅ཧίετ૿େ ྫʣσʔλ௥Ճ࣌ͷΠϯσοΫεࢀরޮ཰

Slide 26

Slide 26 text

ϝϞϦϕʔεKVS ϝϞϦ͸ϥϯμϜΞΫ ηεޮ཰ʹ༏ΕΔͨ ΊɺϋογϡදΛ࠾༻ σΟεΫϕʔεKVS ϝτϦΫε਺͕૿େ͢Δ = KVSͷΩʔ਺͕૿େ͢Δ ↳ ಺෦ΦϒδΣΫτͷ؅ཧίετ૿େ Memory Disk ฏߧ໦ɾεΩο ϓϦετͳͲͷ ιʔτࡁΈߏ଄ ιʔτ͞Ε͍ͯ ΔͨΊσΟεΫ ΞΫηεޮ཰͕ ߴ͍ O(logn) ॻ͖ࠐΈ Flush ॻ͖ࠐΈ Memory O(k) σΟεΫ্ʹ͸σʔλ Λอ࣋͠ͳ͍ɻ ʢίϛοτϩάΛআ͘ʣ Disk ✘ ϝϞϦ͸هԱྔ͋ͨΓͷඅ༻͕େ ͖͍ͨΊɺ௕ظอ࣋ʹ͸ෆ޲͖ɻ ✘ Ωʔ਺͕େ͖͍࣌ʹɺσʔλͷॻ͖ ࠐΈޮ཰͕௿Լ͢Δɻ 3. ത࢜ݚڀ 時系列DBのKVSの書き込み効率 ྫʣσʔλ௥Ճ࣌ͷΠϯσοΫεࢀরޮ཰

Slide 27

Slide 27 text

第 一 の研究:時系列DB 27 Client ϝϞϦϕʔεKVSʢRedisʣ σΟεΫϕʔεKVSʢCassandraʣ App Flusher ݹ͍σʔλͷอଘίετޮ཰Λ޲্ σʔλͷϚΠά Ϩʔγϣϯ ৽ணσʔλΛૠೖ ϋογϡදʹجͮ͘ߴ଎औΓࠐΈ SSD/HDDʹอଘ͢Δ͜ͱʹΑΔ ௕ظอ࣋ίετͷ௿Լ ཱ྆ 3. ത࢜ݚڀ

Slide 28

Slide 28 text

第 一 の研究:スループットの 比 較 ϗετ਺ʢ1~8ʣ औ Γ ࠐ Έ ε ϧ ʛ ϓ ο τ ఏҊख๏͕ϕʔεϥΠϯͷ 3.98ഒɻ 420k datapoints/s ੨ɿKairosDB ᒵɿఏҊख๏ Slackࣾͷ12 M/s ͷϫʔΫϩʔυʹஔ ͖׵͑Δͱ - ఏҊख๏͸229ݸ - KairosDB͸915ݸ ͷϗετ਺Λඞཁͱ͢ΔܭࢉʹͳΔɻ ϝτϦΫε਺Λ1Mʹݻఆ 3. ത࢜ݚڀ <>௶಺༎थ ͦͷଞ )FUFSP54%#ҟछ෼ࢄ,74ؒͷࣗಈ֊૚ԽʹΑΔߴੑೳ ͳ࣌ܥྻσʔλϕʔε ৘ใॲཧֶձ࿦จࢽ ೥ <>ਤ̏ΑΓվมͯ͠సࡌ

Slide 29

Slide 29 text

第 二 の研究:NWコールグラフ 29 Load Balancers Database Clusters Web app servers Message queues Kernel User Proxy Network Stack App NIC Switch ωοτϫʔΫ௨৴ܦ࿏্ͷ͍ͣΕ ͔ʹܭଌ఺Λઃஔ͢Δɻ ΧʔωϧͰͷ F#1'ܭ૷ ʹண໨ 3. ത࢜ݚڀ

Slide 30

Slide 30 text

第 二 の研究:類似の 手 法の存在 30 Τοδέʔεͷ໰୊ղܾʹ ͳΓɺͩΜͩΜߩݙ͕খ͞ ͘ͳ͍ͬͯͬͨ طଘख๏ᶃ ύέοτ਺͕૿Ճ͢Δͱɺ ܭଌΦʔόʔϔου૿Ճ طଘख๏ᶄ ୹໋ͳTCP઀ଓ਺͕େ͖͍؀ ڥͰܭଌΦʔόʔϔου૿Ճ ఏҊख๏ Aggregation of aggregation ͷΑ͏ͳํ๏Ͱղܾ ղܾ ղܾ 3. ത࢜ݚڀ

Slide 31

Slide 31 text

第 二 の研究:オーバーヘッド 比 較実験 ఏҊख๏ ɾ2.2%ҎԼͷCPUར༻཰Λҡ࣋ɻ طଘख๏ᶃ ࠷େ21.3%·ͰCPUར༻཰͕૿Ճɻ طଘख๏ᶄ ࠷େ11.5%·ͰCPUར༻཰͕૿Ճɻ 3. ത࢜ݚڀ <>:5TVCPVDIJ FUBM -PX0WFSIFBE5$16%14PDLFUCBTFE5SBDJOHGPS%JTDPWFSJOH/FUXPSL4FSWJDFT%FQFOEFODJFT  +PVSOBMPG*OGPSNBUJPO1SPDFTTJOH +*1 7PM QQ  [1]ͷ Fig 3. (a)ΑΓసࡌ

Slide 32

Slide 32 text

ϝτϦΫε 第三の研究:AIOps 32 /8ίʔϧάϥϑ ػցֶशɾ౷ܭղੳ ো֐ݪҼಛఆ ؔ࿈࿦จ͕ࢁ΄Ͳ͋ͬͨ 着想当時(2021年)で50+本 ೖྗ ౷ܭతҼՌਪ࿦ 3//-45.(// ࣌ܥྻҟৗݕ஌ ログやトレースも含む ࣌ܥྻΫϥελϦϯά ʜ ࠾༻͞ΕΔϞσϧ΋ଟ਺ <>4PMEBOJ+ #SPHJ""OPNBMZEFUFDUJPOBOEGBJMVSFSPPUDBVTFBOBMZTJTJO NJDSP TFSWJDFCBTFE DMPVEBQQMJDBUJPOT"TVSWFZ"$.$PNQVUJOH4VSWFZT $463 'FC   <> 3. ത࢜ݚڀ

Slide 33

Slide 33 text

問題設定をずらす 33 ಛ௃ྔ࡟ݮ લॲཧͰϊΠζআڈ͢Δख๏Λ ߟ͑ͯΈΕ͹͍͍ͷͰ͸ʁ ଟ࣍ݩϥϕϦϯάʹΑΓ ϝτϦΫε਺͕૿େ ϊΠζ͕ଟ͍ 💡 ϝτϦΫε /8ίʔϧάϥϑ ػցֶशɾ౷ܭղੳ ো֐ݪҼಛఆ ೖྗ 3. ത࢜ݚڀ

Slide 34

Slide 34 text

34 負荷テストと故障注 入 でデータづくり Workflow Scheduler Operational Data Stoage Load Generator Target Application 1. Inject faults Datasets Repositorry 2. Pick latest data to datasets 3. Wait until the application recovers ᶅ ࣍ͷinjection࣌ؒ ɹɹɹɹɹ·Ͱ଴ػ ᶃ ނোΛ஫ೖ ɹ(LitmusChaos) ᶄ εϩοτͷσʔλΛ ࠾औ Locust Microservices (Train Ticket) Argo Work fl ow 3. ത࢜ݚڀ ௶಺༎थ ੨ࢁਅ໵ .FMUSJBɿϚΠΫϩαʔϏεʹ͓͚Δҟৗݕ஌ɾݪҼ෼ੳͷͨΊͷσʔληοτͷಈతੜ੒γεςϜ *054 

Slide 35

Slide 35 text

[Tsubouchi+,ACCESS2025] Fig. 5:ΑΓసࡌ STEP 2: มԽ఺࣌ؒͷ෼෍ ΛجʹηάϝϯτΛ෼ׂ STEP 1: ࣌ܥྻ͝ͱʹɺมԽ఺ީิ Λݕग़ STEP 3: ࠷େີ౓ͷηάϝϯτΛબ୒ ߦ͖ண͍ͨಛ௃ྔ࡟ݮͷ࢓૊Έ 3. ത࢜ݚڀ

Slide 36

Slide 36 text

MetricSifter IUUQTHJUIVCDPNBJTSFNFUSJDTJGUFS ҟৗ ਖ਼ৗ ΦϯϥΠϯ มԽ఺ݕग़ͱ Χʔωϧີ౓ਪ ఆ๏ͷ૊Έ߹Θ ͤʹΑΓ࣮ݱ 3. ത࢜ݚڀ

Slide 37

Slide 37 text

SRE NEXT 2022 ࿦จԽ IUUQTEPJPSH"$$&44 IUUQTTQFBLFSEFDLDPNZVVLJUTSFOFYU 37 ࠷ऴతʹΧϥϜϖʔδ ௒͑ͷେ࡞ʹ ೥ऑ

Slide 38

Slide 38 text

38 💡Ͳͷݸผݚڀ΋ϫʔΫϩʔυͷ૿େʹର͢ΔղܾఏҊʹͳ͍ͬͯͨ l4DBMJOH5FMFNFUSZ8PSLMPBETz ୈೋݚڀɹܭଌ૚ $16Ϧιʔεফඅݮ /8઀ଓ਺૿େ ϝτϦΫε਺૿େ ϝτϦΫε਺૿େ $16ɾ*0Ϧιʔεফඅݮ ࣮ߦ࣌ؒݮɾਫ਼౓૿ ίΞίϯηϓτͱͯ͠நग़ 博 士 論 文 のコアコンセプト 3. ത࢜ݚڀ ୈҰݚڀɹอଘ૚ ୈࡾݚڀɹ෼ੳ૚

Slide 39

Slide 39 text

公聴会資料 IUUQTTQFBLFSEFDLDPNZVVLJUQIEEFGFODF  3. ത࢜ݚڀ

Slide 40

Slide 40 text

 40 4. 今後の探究   はじめに 博 士 研究  まとめ  今後の 探究 40 モニタリ ングSaaS 開発 

Slide 41

Slide 41 text

今後の探究領域 4. ࠓޙͷ୳ڀ 2025 2020 ςϨϝτϦʔքͷ4%(T ࢀর͞Εͳ͍σʔλͷॲཧʹίετΛཁ͢Δ "*GPS43& ো֐؅ཧ΁ͷ"*.-ద༻ 0CTFSWBCJMJUZGPS"*4ZTUFNT (16ΫϥελͷΦϒβʔόϏϦςΟ޲্ $POUSPMMBCJMJUZ 4-*ʹجͮࣗ͘཯੍ޚ 4LJQ

Slide 42

Slide 42 text

今後の探究領域 4. ࠓޙͷ୳ڀ 2025 2020 ςϨϝτϦʔքͷ4%(T ࢀর͞Εͳ͍σʔλͷॲཧʹίετΛཁ͢Δ "*GPS43& ো֐؅ཧ΁ͷ"*.-ద༻ 0CTFSWBCJMJUZGPS"*4ZTUFNT (16ΫϥελͷΦϒβʔόϏϦςΟ޲্ $POUSPMMBCJMJUZ 4-*ʹجͮࣗ͘཯੍ޚ 4LJQ

Slide 43

Slide 43 text

Collect FirstからUse Firstへ ܭଌ อଘ ෼ੳ ඞཁͳσʔλͷΈΛऩू͢ΔΑ͏ʹࣗಈదԠ͍ͤͨ͞ ςϨϝτϦʔύΠϓϥΠϯԣஅͷશମ࠷దԽ σʔλར༻ύλʔϯͷ ϑΟʔυόοΫ 43 4. ࠓޙͷ୳ڀ ത࢜࿦จͰ͸ہॴతͳݸผ࠷దԽʹͱͲ·ͬͨ

Slide 44

Slide 44 text

詳細は下記資料参照 IUUQTTQFBLFSEFDLDPNZVVLJUUFMFNFUSZTZTUFNTSFTFBSDIUSFOETJO 44 4. ࠓޙͷ୳ڀ

Slide 45

Slide 45 text

今後の探究領域 今後の探究領域 45 4. ࠓޙͷ୳ڀ 2025 2020 ςϨϝτϦʔքͷ4%(T ࢀর͞Εͳ͍σʔλͷॲཧʹίετΛཁ͢Δ "*GPS43& ো֐؅ཧ΁ͷ"*.-ద༻ 0CTFSWBCJMJUZGPS"*4ZTUFNT (16ΫϥελͷΦϒβʔόϏϦςΟ޲্ $POUSPMMBCJMJUZ 4-*ʹجͮࣗ͘཯੍ޚ 4LJQ

Slide 46

Slide 46 text

AI for SRE --.Ҏલ͸ςϨϝ τϦʔσʔλͷΈ Λݯͱ͍ͯͨ͠ --.Ҏޙ͸ਓؒ ͕ॻ͍ͨςΩετ ΛؚΊΔΑ͏ʹ <>;IBOH -JOH[IF FUBM"4VSWFZPG"*0QTGPS'BJMVSF.BOBHFNFOUJOUIF&SBPG-BSHF-BOHVBHF .PEFMTz "$.$463 <>'JHΑΓసࡌ 46 4. ࠓޙͷ୳ڀ

Slide 47

Slide 47 text

LLM for SREの典型的な課題 ˢ4DBMJOH5FMFNFUSZ8PSLMPBET ίϯηϓτʹؚΊΒΕΔ 47 4. ࠓޙͷ୳ڀ σʔλܗࣜͷ࣭తͳҟ࣭ੑ ϩάɾϝτϦΫεɾτϨʔε ͷੜσʔλΛؚΊΔͱ͙͢ʹ ίϯςΩετ΢Οϯυ΢Λ௒ ͑ͯ͠·͏ ϝτϦΫε͸࣌ܥྻσʔλɺ ϩά͸൒ߏ଄ԽςΩετɺτ Ϩʔε͸ґଘάϥϑͳͲɺݴ ޠϞσϧ͕௚઀ղऍ͢Δ͜ͱ ͕೉͍͠ σʔλͷྔతͳ๲େ͞

Slide 48

Slide 48 text

コンテキスト 長 問題 <>$IFO :JOGBOH FUBM"*0QT-BC")PMJTUJD'SBNFXPSLUP&WBMVBUF"*"HFOUT GPS&OBCMJOH"VUPOPNPVT$MPVET BS9JW  <>'JHVSFΑΓసࡌ "*ΤʔδΣϯτ͕σʔλऔಘ πʔϧʢHFU@NFUSJDT  HFU@USBDFT౳ʣΛෆ༻ҙʹ࢖ ༻͢ΔͱɺίϯςΩετ͕ա ෛՙʹͳΔ λεΫʹࣦഊͨ͠έʔε Ͱ͸͜ΕΒͷ"1*͕ΑΓ සൟʹ࢖༻͞Εͨ ༨ஊɿϝτϦΫεϑΟϧλϦ ϯάʹɺZVVLͷത࢜ݚڀᶅ Λ࢖͑ΔͷͰ͸ʜʁ 48 4. ࠓޙͷ୳ڀ

Slide 49

Slide 49 text

コンテキスト 長 問題への対処 ,74ʹΑΔεφοϓγϣοτ؅ཧ <>;FGBO8BOH FUBM l3$"HFOU$MPVE3PPU$BVTF"OBMZTJTCZ"VUPOPNPVT"HFOUTXJUI 5PPM"VHNFOUFE-BSHF-BOHVBHF.PEFMTz $*,.  PCTFSWBUJPOIFBE PCTFSWBUJPO PCTFSWBUJPO PCTFSWBUJPO TOBQTIPU TOBQTIPU TOBQTIPU ཁ໿ϔουͱ ϋογϡΩʔͷΈؚΉ ϩάͷཁ໿จ ੜϩά ϋογϡΩʔ ίϯςΩετ πʔϧݺͼग़͠Ͱඞཁͳ σʔλͷΈಡΈࠐΉ 49 4. ࠓޙͷ୳ڀ

Slide 50

Slide 50 text

大 量の 生 異種データの特徴表現 ϝτϦ Ϋε ϩά τϨʔε ᶄ࣌ܥྻͷߴप೾੒෼͚ͩ࢒͠ ͯҟৗΛڧௐʢ''5ʣ lͲ͕͜յΕ͍ͯΔ͔ͷ֬཰z ϓϩϯϓτ γεςϜ஌ࣝ τϨʔεɾϩάൈਮ աڈͷނোύλʔϯ ᶃҟछσʔλͷཁ఺ Λຊͷ࣌ܥྻϕΫ τϧ΁ม׵͢Δ લ ॲཧ ֦ࢄϞσϧ LT1PE౳ͷ୯ҐͷҼՌάϥϑԽ ͱ֬཰είΞԽ 4FMG"UUFOUJPOͱ("5 <>;IBOH 9JBP FUBM5".0'JOF(SBJOFE3PPU$BVTF"OBMZTJTWJB5PPM"TTJTUFE--."HFOUXJUI.VMUJ .PEBMJUZ0CTFSWBUJPO%BUBJO$MPVE/BUJWF4ZTUFNT BS9JWQSFQSJOUBS9JW   <>'JH ͷҰ෦Λ సࡌ 50 4. ࠓޙͷ୳ڀ

Slide 51

Slide 51 text

LLM for SRE:今後の可能性 43&ಛԽͷϚϧνϞʔμϧج൫Ϟσϧ ݴޠϞσϧͰ͋Δ͜ͱͷݶք͕ ͋Δ͔Λ୳Δ ෳ਺ͷҟͳΔγεςϜ༝དྷͷ σʔλΛ࢖͏ ϝτϦΫεɺϩάɺτϨʔεͷ ࣌ܥྻੑ͕ࣦΘΕΔ ݱࡏͷ΄ͱΜͲͷख๏͸͋ΔҰͭͷ γεςϜ༝དྷͷσʔλΛೖྗͱ͢Δ େྔͷσʔληοτΛಘΔ ͜ͱ͕ඇৗʹ೉͍͕͠ʜ ͢Ͱʹ࣌ܥྻج൫ϞσϧͳͲ͸ଘࡏ͢Δ 51 4. ࠓޙͷ୳ڀ

Slide 52

Slide 52 text

24年3 月 までのサーベイは下記資料参照 IUUQTCMPHZVVLJPFOUSZUIFXPSMEPGMMNTSF 52 4. ࠓޙͷ୳ڀ

Slide 53

Slide 53 text

今後の探究領域 53 4. ࠓޙͷ୳ڀ 2025 2020 ςϨϝτϦʔքͷ4%(T ࢀর͞Εͳ͍σʔλͷॲཧʹίετΛཁ͢Δ "*GPS43& ো֐؅ཧ΁ͷ"*.-ద༻ 0CTFSWBCJMJUZGPS"*4ZTUFNT (16ΫϥελͷΦϒβʔόϏϦςΟ޲্ $POUSPMMBCJMJUZ 4-*ʹجͮࣗ͘཯੍ޚ 4LJQ 今後の探究領域

Slide 54

Slide 54 text

さくらONE IUUQTXXXTBLVSBBEKQTBLVSBPOF ͘͞ΒΠϯλʔωοτ ݚڀॴ͕ओװ マネージドGPUスパコンサービスを提供中 ˞(16ϕΞϝλϧαʔϏεߴՐྗ1):΋ఏڙத εύίϯੑೳϥϯΩϯά 501ੈքҐ֫ಘ ʢ*4$ʣ 54

Slide 55

Slide 55 text

GPUグリッド表 示 )1&$MVTUFSWJFX ˞IUUQTHSBGBOBDPNHSBGBOBQMVHJOTIQFIQDHSBGBOBDMVTUFSWJFXQBOFM ˞ ύωϧϓϥάΠϯ ϥοΫˠαʔόˠ(16 ͳͲͷೖΕࢠදݱՄ (16ిྗফඅྔͷྫ ࣾ಺ͷ)1$ઐ໳ Ոʹ޷ධ ೴಺Πϝʔδʹ ͍ۙϏϡʔ 55 4. ࠓޙͷ୳ڀ

Slide 56

Slide 56 text

GPUゼロコード計装の最先端 56 $6%""1*૚ (16υϥΠό૚ ˞zF#1'5VUPSJBM5SBDJOH$6%"(160QFSBUJPOTz IUUQTFVOPNJBEFWUVUPSJBMTDVEBFWFOUT ˞lF#1'5VUPSJBMCZ&YBNQMF.POJUPSJOH(16%SJWFS"DUJWJUZXJUI,FSOFM5SBDFQPJOUTz IUUQTFVOPNJBEFWUVUPSJBMTYQVHQVLFSOFMESJWFS ˞l8SJUFBOE3VOF#1'PO(16XJUICQGUJNFz IUUQTFVOPNJBEFWFOCQGUJNFEPDVNFOUTHQV VQSPCFT MJCDVEBSUTP (16΁ͷϝϞϦׂ౰ɾసૹɾಉظɺΧʔωϧىಈؔ਺ʹϑοΫ USBDFQPJOUT LQSPCFT ϥϯΩϡʔͷਂ͞΍9*%ΤϥʔΛܭଌՄೳ ˞ ˞ ˞ CQGUJNF ඇಉظ΍(16಺෦ͷৄࡉܭଌ͸ࠔ೉ Ϣʔβʔͷ1ZUIPOϓϩηεͱͷඥ͚ͮՄೳ 04ΧʔωϧͷൣᙝͳͷͰɺҰൠతͳLQSPCFTͳͲͰܭଌՄೳ ඇಉظͰ΋(16಺ج४Ͱͷ࣌ࠁ͕Θ͔Δ (16಺ͷϫʔϓ΍εϨου୯Ґཻ౓Ͱͷܭଌ 159ʢ(16தؒදݱʣίʔυ΁F#1'ίʔυΛ஫ೖ Ϣʔβʔۭؒ F#1'ϥϯλΠϜ (16಺෦૚ 4. ࠓޙͷ୳ڀ

Slide 57

Slide 57 text

GPUゼロコード計装の課題 $6%""1*૚ (16υϥΠό૚ (16಺෦૚ ਂ૚ֶश'8૚ʢ1ZUIPOʣ ෼ࢄτϨʔγϯά΁ͷؼணʹ͸ ֤૚ͷΠϕϯτΛ૬ؔͤ͞Δඞཁ͋Γ (16ϝϞϦؒ௨৴΋ ݪཧతʹ͸ܭଌͰ͖Δ͸ͣʜ  ίϯςΩετ఻ൖΛͲ͏΍Δ͔ʁʁ ݱঢ়͸·ͩͦͷΑ͏ͳ πʔϧ͸ͳ͍ ݚڀ։ൃͷྖҬ 4. ࠓޙͷ୳ڀ

Slide 58

Slide 58 text

詳細は下記資料を参照 IUUQTTQFBLFSEFDLDPNZVVLJUPCTFSWBCJMJUZGPS BJTVQFSDPNQVUFSTBLVSBPOF IUUQTTQFBLFSEFDLDPNZVVLJUTBLVSBPOF MMNUSBJOJOHCFODINBSLJOH 4. ࠓޙͷ୳ڀ

Slide 59

Slide 59 text

 59 5. まとめ    はじめに 博 士 研究  まとめ モニタリ ングSaaS 開発  今後の 探究

Slide 60

Slide 60 text

まとめ ॳ࢓ࣄΛ਌ͩͱࢥͬͯ͠·ͬͨʢJNQSJOUJOHʣ 2012 2025 2015 2020 ത࢜՝ఔ ͸ͯͳ ࣾ಺.BDLFSFM .BDLFSFM ͘͞ΒΠϯλʔωοτ 1FSM4/.1 33%UPPM 4%(T 60 5. ·ͱΊ (SBQIJUF3FEJT %ZOBNP%#4 4DBMJOH5FMFNFUSZ 8PSLMPBET --.GPS43& "*εύίϯ Մ੍ޚੑ ݱ৔ͷӡ༻ ֶज़ ݱ৔΁ద༻

Slide 61

Slide 61 text

テレメトリー技術のおもしろさ w ܭ૷ɿର৅γεςϜͷछྨ͸ଟذʹΘͨΔͷͰେมˠແݶʹ༡΂Δ w ର৅γεςϜʢ(16Ϋϥελ΍ωοτϫʔΫͳͲʣʹ݁ہͦΕͳΓʹৄ͘͠ ͳΒͳ͍ͱ͍͚ͳ͍ w ετϨʔδɿ෼ࢄ%#ٕज़͕େมˠແݶʹ༡΂Δ w ෼ੳɿ౷ܭɾػցֶश͕େมˠແݶʹ༡΂Δ ஌Βͳ͍͜ͱ͕ͲΜͲΜ૿͍͑ͯ͘ 61 5. ·ͱΊ ෼໺Λԣஅ͢Δ͓΋͠Ζ͍ྖҬ

Slide 62

Slide 62 text

技術を探究する仕 方 のひとつ Ξ΢τϓοτͷੵΈॏͶʹΑΓ ࢥࡧΛਂΊ͍ͯ͘ ϙοϓΧϧνϟʔΛ୤ͯ͠ ֶज़ͱݺ΂Δ΋ͷ΁43&Λ ԡ্͛͠Δ ҰํͰɺֶज़෼໺ͱ͠ ཱͯ֬͢Δͱ໘ന͘ͳ ͘ͳΔͷͰ͸ʁ ໃ६ ϙοϓͱֶज़ͷڱؒͰ 62 5. ·ͱΊ ΞϥϯɾέΠͷ l$PNQVUJOHBT 1PQ$VMUVSFz ͷจ຺

Slide 63

Slide 63 text

A. 付録

Slide 64

Slide 64 text

テレメトリーとは ԕִ஍ ܭث ૹ৴ ෼ੳ ؂ࢹͱ෼ੳͷͨΊʹɺγεςϜɺΞϓϦέʔγϣϯɺαʔϏε͔Βԕִ஍΁ɺ ੑೳ΍ར༻ʹؔ͢ΔσʔλΛࣗಈͰऩू͠ɺૹ৴͢Δɻ ܭثͷಡΈऔΓ஋Λه࿥͠ɺૹ৴͢Δϓϩηεɻ Ұൠతͳఆٛ ιϑτ΢ΣΞจ຺Ͱͷఆٛ ˞ςϨϝτϦʔͷఆٛʹ෼ ੳ͸ؚ·Εͳ͍͕ɺιϑτ ΢ΣΞจ຺Ͱ͸χΞϦΞϧ λΠϜͷ෼ੳ͕ཁٻ͞ΕΔ ͨΊɺςϨϝτϦʔͷܥͷ தʹ෼ੳ·ͰؚΊͯ΋Α͍ ͷͰ͸ͳ͍͔ 64

Slide 65

Slide 65 text

テレメトリーという 用 語選択 w ത࢜࿦จҎલ͸ɺzςϨϝτϦʔzΛ༻͍ͣɺzϞχλϦϯάz΍zΦϒβʔόϏϦ ςΟzͱ͍͏ޠ͚ͩͰઆ໌͍ͯͨ͠ w zΦϒβʔόϏϦςΟz͸ɺ੍ޚ޻ֶͷՄ؍ଌੑͱ͸ҙຯ͕શ͘ಉ͡Ͱ͸ͳ͍ w ത࢜࿦จͰ͸ɺଞͷ఻౷తͳ޻ֶ෼໺ͱ઀ଓͤ͞ΔͨΊʹzςϨϝτϦʔzΛ༻ ͍ͨ

Slide 66

Slide 66 text

先 行 研究①   異常時のみデータを参照しがち [1] Zhang, Lei, et al. "The bene fi t of hindsight: Tracing Edge-Cases in distributed systems." NSDI, 2022. [1]ͷ Fig.2ΑΓసࡌ Ͳ͏΍Δͷʁ IUUQTHJUMBCNQJTXTPSHDMEUSBDJOHIJOETJHIU ҟৗɾكͳΠϕϯτݕ஌࣌ ͷΈτϨʔεΛऩू͍ͨ͠ ΤʔδΣϯτʹ௚ۙͷσʔ λΛৗʹอ͓࣋ͯ͘͠ ݕ஌࣌ʹɺΤʔδΣϯτ্ͷ ݻఆ௕όοϑΝ্ͷσʔλΛ ૹ৴

Slide 67

Slide 67 text

先 行 研究②   冗 長 ログの削除 ୯ҰͷϩάςϯϓϨʔτ͕શετ ϨʔδͷΛ઎Ί͍ͯͨɻ ໰୊ write(2) ʹeBPFͰϑοΫͯ͠ϗο τεϙοτ൑ఆ͞ΕͨΒϩάग़ྗ Λdrop ࡟ݮɿ1#ˠ1#೔ ʣ मਖ਼࣌ؒ୹ॖɿ೔ˠ෼ ݁Ռ Yu, Guangba, et al. "Logreducer: Identify and reduce log hotspots in kernel on the fl y." ICSE, 2023. ʢ8F$IBU೔ʹ1#ɺஹߦʣ ख๏

Slide 68

Slide 68 text

Scaling Telemetry Workloads: 今後の展開例 w औಘස౓ɾϩάϨϕϧɾαϯϓϦϯά཰ͷదԠత੍ޚ w ΤϥʔόδΣοτͷ࢒ྔ͕ଟ͚Ε͹ૈ͘͠ɺগͳ͘ͳΕ͹ࡉ͔͘͢Δ w σʔλͷࢀর਺Λܭ্͓͖ͯ͠ɺཻ౓Λ௿͘͢Δ͔ɺܭଌ͠ͳ͍ w શମ࠷దԽ w ϝτϦΫεɾϩάɾτϨʔεݸผͰ͸ͳ͘ɺίετ૯ֹΛ੍໿ͱͯ͠ɺ ౷߹͞Ε੍ͨޚػߏ

Slide 69

Slide 69 text

69 ޻ֶͱͯ͠ͷSREͷఆٛʢ2024೥ yuuk1൛ʣ SREͱ͸ɺߴස౓ͷมߋΛલఏͱ͢ΔγεςϜΛର৅ʹɺ ɹ1) ར༻ऀࢹ఺Ͱͷ৴པੑΛܭଌՄೳͳมྔʹؼணͤ͞ɺ ɹ2) ৴པੑΛద੾ͳ஋ʹ੍ޚՄೳͱ͢Δ͜ͱʹΑΓɺ ɹ3) ଞͷมྔʢมߋ଎౓ɺඅ༻ͳͲʣΛ๬·͍͠஋ʹಋ͘ɺ ͜ͱΛ໨తͱ͢Διϑτ΢ΣΞ޻ֶͷҰ෼໺Ͱ͋Δ ࠷దԽ໰୊ͷΑ͏ͳܗͰ ఆ͍ٛͯ͠Δ