Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2024/1/22 デモで実感_IBM_Knowledge_Catalogによる分かりやすいデータアクセス/20240122ikcdojo

HirokiK
January 22, 2024

2024/1/22 デモで実感_IBM_Knowledge_Catalogによる分かりやすいデータアクセス/20240122ikcdojo

データガバナンスソリューションであるIBM Knowledge Catalogは、データに対してビジネス用語などのメタデータを付与し、データ品質を可視化することデータ提供者側とデータ利用者の円滑なやりとりを支援します。

本DojoではIBM Knowledge Catalogの主な機能である
・データカタログ:目的に合う正しいデータを探し取り出す
・データプロファイル:データの品質や分布を可視化、欠損値や外れ値を把握・修正
をデモを通じてご紹介します。

前提知識は特にありません。

HirokiK

January 22, 2024
Tweet

More Decks by HirokiK

Other Decks in Technology

Transcript

  1. © 2024 IBM Corporation 2 ࣗݾ঺հ ๺௺ ༟ل ͖ͨͮΊ ͻΖ͖

    %BUB"*୲౰ $VTUPNFS4VDDFTT.BOBHFS 1VSQPTF ͓٬༷ͷ௅ઓΛࢧ͑ŊدΓఴ͏ύʔτφʔͱͳΔ ܦྺ ϓϩμΫτ։ൃϚωδϝϯτŊࣾ಺޲͚৘ใൃ৴  ࣗࣾϓϥοτϑΥʔϜαʔϏεاըఏҊ  ΤΞϥΠϯܥγεςϜؒ௨৴"1։ൃŊอक  $VTUPNFS4VDDFTT.BOBHFS"SDIJUFDU  $FSUJGJFE4DSVN1SPEVDU0XOFS "EWPDBUF*#.$MPVEW 3FE)BU$FSUJGJFE4QFDJBMJTUJO$POUBJOFST &NBJM IJSPLJLJUB[VNF!JCNDPN -JOLFE*OIUUQTMJOLFEJODPNJOIJSPLJLJUB[VNF
  2. © 2024 IBM Corporation 3 ໔੹ࣄ߲ ຊࢿྉʹؚ·ΕΔ৘ใ͸ՄೳͳݶΓਖ਼֬Λظ͓ͯ͠Γ·͕͢ɺ هࡌ͞Εͨ಺༰ʹؔͯ͠ɺ೔ຊΞΠɾϏʔɾΤϜגࣜձ͕ࣾ ԿΒอূ͢Δ΋ͷͰ͸͋Γ·ͤΜɻ ैͬͯɺຊࢿྉͷ৘ใͷར༻͸࢖༻ऀͷ੹೚ʹ͓͍ͯ

    ҝ͞ΕΔ΋ͷͰ͋Γɺࢿྉͷ಺༰ʹΑͬͯड͚ͨ ೗ԿͳΔඃ֐ʹؔͯ͠΋Ұ੾ͷิঈΛ͢Δ΋ͷͰ͸͋Γ·ͤΜɻ <࿥ըڐՄͷ͓ئ͍> %PKPͷ༷ࢠΛ࿥ը͠Ŋຊࢿྉͱͱ΋ʹΞʔΧΠϒͱͯ͠ެ։͍ͤͯͩ͘͞͞Ň օ༷ͷ͓إŊ໊͓લ͸өΒͳ͍Α͏ʹઃఆ͍ͯ͠·͢Ň
  3. © 2024 IBM Corporation 6 "*࣌୅ʹ͓͚Δσʔλͷॏཁੑ σʔλυϦϒϯܦӦ ʮσʔλʯͱʮΞϧΰϦζϜʯʹج͍ͮͨ٬؍ੑͷߴ͍ҙࢥܾఆΛ͢ΔܦӦ σʔλ׆༻ͷվળ͸ τοϓϓϥΠΦϦςΟͱൃݴ

    σʔλυϦϒϯܦӦͷͨΊʹ ϓϥοτϑΥʔϜ੔උΛܭը ग़యɿ'PSSFTUFS   σʔλ ΞϧΰϦζϜ ܦݧ צ  σʔλ͔ΒՁ஋Λ ಋ͖ग़͍ͤͯΔاۀͷׂ߹ ग़యɿ'PSSFTUFS σʔλར༻ଆͱσʔλఏڙଆͰ༻్͝ͱʹҟͳΔ πʔϧ΍࢓૊ΈΛ࢖͍ͬͯΔ͜ͱ͕ଟ͍ɻ
  4. © 2024 IBM Corporation 7 "*࣌୅ʹ͓͚Δσʔλͷॏཁੑ σʔλυϦϒϯܦӦ ʮσʔλʯͱʮΞϧΰϦζϜʯʹج͍ͮͨ٬؍ੑͷߴ͍ҙࢥܾఆΛ͢ΔܦӦ σʔλ׆༻ͷվળ͸ τοϓϓϥΠΦϦςΟͱൃݴ

    σʔλυϦϒϯܦӦͷͨΊʹ ϓϥοτϑΥʔϜ੔උΛܭը ग़యɿ'PSSFTUFS   σʔλ ΞϧΰϦζϜ ܦݧ צ  σʔλ͔ΒՁ஋Λ ಋ͖ग़͍ͤͯΔاۀͷׂ߹ ग़యɿ'PSSFTUFS σʔλར༻ଆͱσʔλఏڙଆͰ༻్͝ͱʹҟͳΔ πʔϧ΍࢓૊ΈΛ࢖͍ͬͯΔ͜ͱ͕ଟ͍ɻ
  5. © 2024 IBM Corporation 8 σʔλΛ࢖͑ΔΑ͏ʹ͢ΔͨΊͷ՝୊ σʔλ४උ 1SFQBSF ߏங #VJME

    ෼ੳϞσϧΛ ߏங ࣮ߦ 3VO ۀ຿ʹద༻ ؅ཧ .BOBHF ݕग़ɺཧղɺऔΓࠐΈɺ౷߹ ඼࣭ͷධՁɺσʔλΫϨϯδϯά σʔλɾΦϖϨʔγϣϯ ਺Χ݄ r਺࢛൒ظ ࣮ࡍʹσʔλΛ׆༻͢Δ νʔϜ͕஫໨͢ΔՕॴ ࡞ۀ࣌ؒͷ  ͕අ΍͞ΕΔՕॴ Ϗδωε΁ͷӨڹ͕ ൃੜ͢ΔՕॴ ʮσʔλͷॴࡏ͕Θ͔Βͳ͍ʯɺʮσʔλ͕ਖ਼֬Ͱͳ͍ͨΊ࢖͑ͳ͍ʯɺʮՃ޻ͷॲཧʹ͕͔͔࣌ؒΔʯͨΊɺ σʔλΛ׆༻͢Δ·Ͱͷ࡞ۀ࣌ؒͷΛσʔλ४උ΍σʔλɾΦϖϨʔγϣϯʹ࣌ؒΛඅ΍͍ͯ͠·͢ɻ
  6. © 2024 IBM Corporation 9 σʔλͷ੔උ΍σʔλ୳ࡧར༻ʹؔΘΔ༷ʑͳϢʔβʔͷχʔζʹର͠ɺ ༷ʑͳػೳΛͻͱͭͷϓϥοτϑΥʔϜͰఏڙ͠ɺ&OEUPFOEͷ%BUB0QTΛࢧԉ͠·͢ %BUB0QTΛਪਐ͢Δ*#. ,OPXMFEHF $BUBMPH

    σʔλΨόφϯεr,OPXZPVSEBUB σʔλΨόφϯε νʔϜ σʔλ඼࣭r5SVTUZPVSEBUB σʔλενϡΞʔυ σʔλ඼࣭෼ੳऀ σʔλར༻r6TFZPVSEBUB σʔλར༻ऀ σʔλͷ඼࣭ΛอͪɺϏδωε Ϣʔβʔ͕ཧղ͠΍͍͢ܗʹ੔ ͑ͯఏڙ͢Δ %BUB0QTΛਪਐ͢ΔͨΊʹɺσʔλ؅ཧͷମܥ΍ϧʔϧΛ੔උͯ͠ɺద༻͢Δ ϏδωεՁ஋ΛੜΈग़ͨ͢Ίʹɺ ϏδωεϨσΟͳσʔλΛޮ཰ Α͘׆༻͢Δ *#. ,OPXMFEHF $BUBMPH #VTJOFTT (MPTTBSZ 1PMJDZ .BOBHFNFOU 1PMJDZ &OGPSDFNFOU 3FGFSFODF%BUB .BOBHFNFOU %BUB-JOFBHF $MBTTJGJDBUJPO 4FMG4FSWJDF %BUB1SFQ 4PDJBM $PMMBCPSBUJPO %BUB%JTDPWFSZ %BUB1SPGJMJOH "OBMZTJT #VTJOFTT5FSN 4VHHFTUJPOT %BUB2VBMJUZ *TTVF%FUFDUJPO
  7. © 2024 IBM Corporation 10 σʔλͷ੔උ΍σʔλ୳ࡧར༻ʹؔΘΔ༷ʑͳϢʔβʔͷχʔζʹର͠ɺ ༷ʑͳػೳΛͻͱͭͷϓϥοτϑΥʔϜͰఏڙ͠ɺ&OEUPFOEͷ%BUB0QTΛࢧԉ͠·͢ %BUB0QTΛਪਐ͢Δ*#. ,OPXMFEHF $BUBMPH

    σʔλΨόφϯεr,OPXZPVSEBUB σʔλΨόφϯε νʔϜ σʔλ඼࣭r5SVTUZPVSEBUB σʔλενϡΞʔυ σʔλ඼࣭෼ੳऀ σʔλར༻r6TFZPVSEBUB σʔλར༻ऀ σʔλͷ඼࣭ΛอͪɺϏδωε Ϣʔβʔ͕ཧղ͠΍͍͢ܗʹ੔ ͑ͯఏڙ͢Δ %BUB0QTΛਪਐ͢ΔͨΊʹɺσʔλ؅ཧͷମܥ΍ϧʔϧΛ੔උͯ͠ɺద༻͢Δ ϏδωεՁ஋ΛੜΈग़ͨ͢Ίʹɺ ϏδωεϨσΟͳσʔλΛޮ཰ Α͘׆༻͢Δ *#. ,OPXMFEHF $BUBMPH #VTJOFTT (MPTTBSZ 1PMJDZ .BOBHFNFOU 1PMJDZ &OGPSDFNFOU 3FGFSFODF%BUB .BOBHFNFOU %BUB-JOFBHF $MBTTJGJDBUJPO 4FMG4FSWJDF %BUB1SFQ 4PDJBM $PMMBCPSBUJPO %BUB%JTDPWFSZ %BUB1SPGJMJOH "OBMZTJT #VTJOFTT5FSN 4VHHFTUJPOT %BUB2VBMJUZ *TTVF%FUFDUJPO
  8. © 2024 IBM Corporation 11 σʔλͷ੔උ΍σʔλ୳ࡧར༻ʹؔΘΔ༷ʑͳϢʔβʔͷχʔζʹର͠ɺ ༷ʑͳػೳΛͻͱͭͷϓϥοτϑΥʔϜͰఏڙ͠ɺ&OEUPFOEͷ%BUB0QTΛࢧԉ͠·͢ %BUB0QTΛਪਐ͢Δ*#. ,OPXMFEHF $BUBMPH

    σʔλΨόφϯεr,OPXZPVSEBUB σʔλΨόφϯε νʔϜ σʔλ඼࣭r5SVTUZPVSEBUB σʔλενϡΞʔυ σʔλ඼࣭෼ੳऀ σʔλར༻r6TFZPVSEBUB σʔλར༻ऀ σʔλͷ඼࣭ΛอͪɺϏδωε Ϣʔβʔ͕ཧղ͠΍͍͢ܗʹ੔ ͑ͯఏڙ͢Δ %BUB0QTΛਪਐ͢ΔͨΊʹɺσʔλ؅ཧͷମܥ΍ϧʔϧΛ੔උͯ͠ɺద༻͢Δ ϏδωεՁ஋ΛੜΈग़ͨ͢Ίʹɺ ϏδωεϨσΟͳσʔλΛޮ཰ Α͘׆༻͢Δ *#. ,OPXMFEHF $BUBMPH #VTJOFTT (MPTTBSZ 1PMJDZ .BOBHFNFOU 1PMJDZ &OGPSDFNFOU 3FGFSFODF%BUB .BOBHFNFOU %BUB-JOFBHF $MBTTJGJDBUJPO 4FMG4FSWJDF %BUB1SFQ 4PDJBM $PMMBCPSBUJPO %BUB%JTDPWFSZ %BUB1SPGJMJOH "OBMZTJT #VTJOFTT5FSN 4VHHFTUJPOT %BUB2VBMJUZ *TTVF%FUFDUJPO
  9. © 2024 IBM Corporation 12 ຊ΢ΣϏφʔͷ໨త σϞΛ௨ͯ͡Ŋ*#.,OPXMFEHF $BUBMPHͰ ҎԼΛ࣮ࢪ͢ΔࡍͷΠϝʔδΛ௫ΜͰ͍ͨͩ͘ •

    σʔλΛར༻͠΍͍͢؀ڥ ˠʮσʔλΧλϩάʯͬͯͲΜͳ΋ͷʁ • σʔλͷ඼࣭   ˠͲ͏΍ͬͯ඼࣭ΛධՁ͢Δͷʁ
  10. © 2024 IBM Corporation 14 σʔλɾηϚϯςΟοΫϨΠϠʔ ʢ֓೦Ϟσϧʣ σʔλϨΠΫ ϨϙδτϦ σʔλԾ૝Խ

    Χλϩά σʔλར༻ଆ σʔλ౷߹ σʔλҠߦ σʔλϨϓϦ έʔγϣϯ Ϗδωε ༻ޠԽ ϓϩϑΝΠϧ ࣗಈ࡞੒ ϚεΩϯά ࣗಈԽ σʔλ ୳ࡧ ઀ ଓ άϩʔόϧ αʔν σʔλ ϓϨϏϡʔ σʔλ ΞΫηε IBM Cloud Pak for Data ίϯϓϥΠΞϯε Ϩϙʔτ Discovery & Exploration ηϧϑαʔϏε ΞφϦςΟΫε BI Ϩϙʔτ, μογϡϘʔυ Ϗδωε ΞϓϦέʔγϣϯ AI, ML & ࠷దԽ τϥϯβΫγϣϯ ɾγεςϜ & جװۀ຿ ΞϓϦέʔγϣϯ • Cloud • ιʔγϟϧϝσΟΞ • ඇߏ଄Խ • ͦͷଞ֎෦σʔλ • IOT • Systems of Record • ϩά • … Hadoop Db2 Netezza Cloud σʔλιʔε NoSQL ΦϒδΣΫτε τΞ ϑϥοτ ϑΝΠϧ σʔλఏڙऀͷࢹ఺ σʔλར༻ऀͷࢹ఺ σʔλɾΤϯδχΞ Ϣʔβʔ σʔλɾενϡϫʔυ ETL σʔλ ϓϨύϨʔγϣϯ ࢢຽσʔλαΠΤϯςΟετ AutoAI SPSS OpenScal Decision Optimization σʔλαΠΤϯςΟετɺ .-0QTʹΑΔϞσϧ࠷దԽ σʔλαΠΤϯςΟετ ͷ਺ཧ࠷దԽ σʔλαΠΤϯςΟετ watsonx.data DWH σʔλϨΠΫ σʔλ౷߹ σʔλϦωʔδϡʢདྷྺʣ ඼࣭ͷϞχλϦϯάʢՄ؍ଌʣ S3 ICOS ϨΠΫϋ΢ε σʔλαΠΤϯςΟετͷຽओԽʢ-0#΁ʣ "*Ϟσϧͷࣗಈ࡞੒ IBM Cloud Pak for DataશମͷΠϝʔδ IBM Cloud Pak for Data͸σʔλ౷߹؅ཧΛ࣮ݱ͢ΔϓϥοτϑΥʔϜͰ͢Ň σʔλར༻ऀŋఏڙऀͷχʔζʹ߹Θͤͨσʔλ׆༻ʹؔΘΔػೳ͕શͯೖ͍ͬͯΔ͜ͱ͕ಛ௃Ͱ͢ɻ ͦͷதͷIBM Knowledge Catalog͸σʔλΧλϩάαʔϏεΛఏڙ͠·͢ɻ IBM Knowledge Catalog
  11. © 2024 IBM Corporation 15 σʔλఏڙऀͱར༻ऀΛͭͳ͙σʔλɾηϚϯςΟοΫϨΠϠʔ/σʔλɾενϡϫʔυ σʔλϕʔε αʔόʔ Web ΞϓϦʔγϣϯ

    αʔόʔ ̗̞ αʔόʔ σʔλ ΢ΣΞϋ΢ε σʔλ Ϛʔτ σʔλ ϨΠΫ ηΩϡϦςΟʔઃఆ΋ίί σʔλͷՃ޻΋ίί ෳ਺ςʔϒϧͷ݁߹΋ίί σʔλఏڙऀͷࢹ఺ σʔλར༻ऀͷࢹ఺ σʔλɾΤϯδχΞ Ϣʔβʔ σʔλɾενϡϫʔυ ҆ఆͯ͠σʔλΛ׆༻͢ΔͨΊͷج൫Λఏڙ͢Δਓ ɾσʔλج൫ӡ༻ɺอ؅ɺऩू σʔλ׆༻ͷਫઌҊ಺ਓ ɾσʔλͷ੔උɾ඼࣭ͷ୲อ ɾར༻ଅਐɾαϙʔτ σʔλͰՁ஋ΛੜΈग़͢ਓ ɾϏδωε՝୊ͷઃఆ ɾ࣮૷ σʔλ ηϚϯςΟοΫϨΠϠʔ ʢ֓೦Ϟσϧʣ ͷඞཁੑɾଘࡏҙٛ σʔλར༻ऀʹ͍ۙ৔ॴ Ͱɺ͞·͟·ͳσʔλ Ψόφϯεઃఆ͕Մೳ ʹʂ ʮσʔλɾηϚϯςΟοΫϨΠϠʔʯ͸σʔλఏڙऀ(γεςϜࢹ఺)ͱσʔλར༻ऀ(Ϗδωεࢹ఺)Λ݁ͼ͚ͭ·͢Ň σʔλɾενϡϫʔυͱ͍͏໾ׂ͕σʔλ׆༻ͷਫઌҊ಺ਓͱͯ͠ŊσʔλɾηϚϯςΟοΫϨΠϠʔͰσʔλͷ੔උ΍඼࣭ ͷ୲อΛ࣮ࢪ͠·͢Ň
  12. © 2024 IBM Corporation 17 ຊ೔ͷσϞͷ֓ཁ σʔλΧλϩάιϦϡʔγϣϯͰ͋ΔIBM Knowledge Catalog͸Ŋσʔλ׆༻Λ҆શʹŊૉૣ͘Ŋత֬ʹਐΊΔ͜ͱ͕Ͱ͖Δ πʔϧͰ͢Ň

    σʔλ׆༻ͷ੒ޭͷ伴͸ɺ౷੍͞ΕͨσʔλͷதͰɺσʔλར༻ऀ͕ࣗ༝ʹඞཁͳσʔλΛಛఆ͠Ŋ࢖͍͍ͨܗʹՃ޻ग़དྷΔ ͜ͱͰ͢ɻ ͜Ε͔Βɺσʔλ౷੍ͱར༻ऀͷ࢖͍΍͢͞Λ݉Ͷඋ͑ͨ࢓૊ΈΛ؆୯ʹ࣮ݱग़དྷΔ͜ͱΛσϞΛ௨͓ͯ͡఻͍͑ͨ͠·͢ɻ データの品質や分布を可視化 ⽋損値や外れ値を把握・修正 ユーザー⾃⾝が、様々な データをGUIで簡単に加⼯ • 検索機能をつかって探し出す • 他のユーザが作成した加⼯デー タ等を共有・再利⽤が出来る ⽬的に合う正しいデータを 探し取り出す データの特徴・分布状況を 簡単に確認 データ加⼯や結合を容易に ① データカタログ ② データプロファイル ③ セルフETL ᶅ͸࣌ؒ഑෼ʹԠͯ͡ Φϓγϣϯͱ ͍͖ͤͯͨͩ͞·͢
  13. © 2024 IBM Corporation 18 ຊ೔ͷσϞͷ֓ཁ データの品質や分布を可視化 ⽋損値や外れ値を把握・修正 ユーザー⾃⾝が、様々な データをGUIで簡単に加⼯

    • 検索機能をつかって探し出す • 他のユーザが作成した加⼯デー タ等を共有・再利⽤が出来る ⽬的に合う正しいデータを 探し取り出す データの特徴・分布状況を 簡単に確認 データ加⼯や結合を容易に ① データカタログ ② データプロファイル ③ セルフETL
  14. © 2024 IBM Corporation 19 σʔλΧλϩάʹ͓͚Δ༷ʑͳλεΫ σʔλΨόφϯενʔϜ σʔλ؅ཧऀ Χλϩά؅ཧऀ σʔλ෼ੳऀ

    σʔλαΠΤϯςΟετ ݕࡧ Find ཧղ Understand ར༻ Use σʔλΨόφϯε Data Governance σʔλऔࠐ/੔ཧ Data Curation Data Quality σʔλར༻ Data Consumption • ΨόφϯεϙϦγʔ/ ϧʔϧͷఆٛ • Ϗδωε༻ޠͷఆٛ • อ༗͢Δσʔλͷछྨ ͷఆٛ (Ͳ͏͍ͬͨσʔ λΛ؅ཧ/ݕग़͢Δ͔ʣ • ্هఆ߲ٛ໨ͷ؅ཧɺ ొ࿥ঢ়گͷ֬ೝ • σʔλ઀ଓͷఆٛͱ ϝλσʔλͷऔࠐ • σʔλͷ඼࣭νΣο Ϋɾ඼࣭෼ੳ • σʔλͷ෼ྨ • Ϗδωε༻ޠͱσʔλ ͷϚοϐϯά • σʔλͷདྷྺ೺ѲɾӨ ڹ෼ੳ • ϚεΩϯάσʔλͷ४උ • ηϧϑαʔϏεͷݕࡧ • Ϧίϝϯσʔγϣϯʹ ΑΔσʔλͷൃݟ • ϚεΩϯάʹΑΔ҆શ ͳσʔλΞΫηε • σʔλͷϓϩϑΝΠϧ ΍෼ྨ(छྨ)ʹΑΔཧղ • Ϗδωε༻ޠͱͷؔ࿈ ʹΑΔσʔλͷཧղ • ίϝϯτ΍ϨΠςΟϯ άʹΑΔϢʔβʔධՁ ʹΑΔཧղ • σʔλͷՄࢹԽ • ؆୯ͳσʔλՃ޻ (σʔλϓϦύϨʔγϣϯʣ • ෼ੳϓϩδΣΫτͱ ͷ࿈ܞ Ϗδωε༻ޠ/ΧςΰϦʔ ϙϦγʔɺϧʔϧ σʔλΫϥε ϦϑΝϨϯεσʔλ ϫʔΫϑϩʔ Ϩϙʔτ ϝλσʔλΠϯϙʔτ (ϝλσʔλऔࠐ) ϝλσʔλΤϯϦονϝϯτ (ϓϩϑΝΠϧɺ඼࣭είΞνΣοΫɺ ༻ޠϚοϐϯά) ඼࣭෼ੳɺσʔλϦωʔδϡ ϚεΩϯάϑϩʔ ݕࡧ(Global Search) Χλϩά σʔλΞηοτͷϦίϝϯυ σʔλΞηοτͷϓϨϏϡʔɺϓϩϑΝΠϧɺධՁ/ίϝϯτ σʔλϦϑΝΠφϦʔ ΧελϜɾϓϩύςΟʔ W K C ओ ཁ ػ ೳ ଞαʔϏεͱͷ ࿈ܞ σʔλԾ૝Խ σʔλ෼ੳ
  15. © 2024 IBM Corporation 20 Ψόφϯε੒Ռ෺ʹ͍ͭͯ ガバナンス成果物 説明 カテゴリー 下記のガバナンス成果物を管理するためのグルーピング。ガバナンス成果物に対する権

    限制御はこのカテゴリー単位で管理できる ビジネス⽤語 企業のビジネス活動の概念を表現し、共通理解を得るための⽤語。これをデータ資産や 列などに付与して、データ内容に対して誰でも同じ理解を持つことができる データ・クラス データ(リレーショナルデータ)の列に対して、タイプや使⽤⽅法を定義するためのも の 参照データ・セット 特定のフィールドの値の標準セットを定義する場合に利⽤(例︓国別コードの標準定義 を作成する場合など) ポリシー カタログ内のデータを管理する⽅法を記述したもの。下記のルールを複数紐づけてグ ルーピングすることができる。 ルール 次の2種類のルールが存在 • データ保護ルール︓アクセス制御やマスキングなどシステム制約を課すルール • ガバナンス・ルール︓⼈が理解し運⽤できるよう、⾃然⾔語でデータの取り扱いを定 義したルール 分類 データ資産内のデータの機密性を記述するもの。データ資産だけでなく、上記ガバナン ス成果物に対して割り当てることも可能 ※⻘字︓本⽇のデモで取り扱う対象 n WKCでは、次のような「ガバナンス成果物」を作成し、組み合わせながらカタログ/データ資産に適⽤ することで、データガバナンスを実現します
  16. © 2024 IBM Corporation 21 データエンリッチメント rデータクラスの作成&追加 ᶃΧλϩά࡞੒ ˍσʔλ઀ଓ ᶄσʔλΤϯ

    Ϧονϝϯτ ᶅσʔλ Ψόφϯε σʔλΫϥεͱ͸ɻ ֤σʔλͷಛ௃Λه͓ͯ͘͠΋ͷɻ ྫ͑͹ɺܞଳి࿩൪߸ͷσʔλΫϥεΛ࡞Δ৔߹ɻ ܞଳి࿩൪߸͸௨ৗɺͳͲ͔Β࢝·Δɺܻ rܻ ܻͷ൪߸܈Ͱ͋ΔͨΊɺ ҎԼͷͱ͓ΓɺσʔλΫϥεΛ࡞੒Ͱ͖Δɻ ܞଳి࿩൪߸ͷσʔλΫϥε ܻ rܻ rܻ ͷ਺ࣈ ྫ  ͜ͷಛ௃Λ༻͍ͯɺσʔλΧλϩάͰ͸඼࣭είΞΛઃఆ͍ͯ͠·͢ɻ 090-1111-1111 0120-1111-1111 ਖ਼ৗͳೖྗ஋ ҟৗͳೖྗ஋ ܞଳ൪߸ σʔλΫϥε ਖ਼ৗ஋ɿ ҟৗ஋ɿ ඼࣭είΞࢉग़ ඼࣭είΞͷ஋
  17. © 2024 IBM Corporation 23 データの品質や分布を可視化 ⽋損値や外れ値を把握・修正 ユーザー⾃⾝が、様々な データをGUIで簡単に加⼯ •

    検索機能をつかって探し出す • 他のユーザが作成した加⼯デー タ等を共有・再利⽤が出来る ⽬的に合う正しいデータを 探し取り出す データの特徴・分布状況を 簡単に確認 データ加⼯や結合を容易に ① データカタログ ② データプロファイル ③ セルフETL ຊ೔ͷσϞͷ֓ཁ
  18. © 2024 IBM Corporation 24 σʔλΧλϩάʹ͓͚Δ༷ʑͳλεΫ σʔλΨόφϯενʔϜ σʔλ؅ཧऀ Χλϩά؅ཧऀ σʔλ෼ੳऀ

    σʔλαΠΤϯςΟετ ݕࡧ Find ཧղ Understand ར༻ Use σʔλΨόφϯε Data Governance σʔλऔࠐ/੔ཧ Data Curation Data Quality σʔλར༻ Data Consumption • ΨόφϯεϙϦγʔ/ ϧʔϧͷఆٛ • Ϗδωε༻ޠͷఆٛ • อ༗͢Δσʔλͷछྨ ͷఆٛ (Ͳ͏͍ͬͨσʔ λΛ؅ཧ/ݕग़͢Δ͔ʣ • ্هఆ߲ٛ໨ͷ؅ཧɺ ొ࿥ঢ়گͷ֬ೝ • σʔλ઀ଓͷఆٛͱ ϝλσʔλͷऔࠐ • σʔλͷ඼࣭νΣο Ϋɾ඼࣭෼ੳ • σʔλͷ෼ྨ • Ϗδωε༻ޠͱσʔλ ͷϚοϐϯά • σʔλͷདྷྺ೺ѲɾӨ ڹ෼ੳ • ϚεΩϯάσʔλͷ४උ • ηϧϑαʔϏεͷݕࡧ • Ϧίϝϯσʔγϣϯʹ ΑΔσʔλͷൃݟ • ϚεΩϯάʹΑΔ҆શ ͳσʔλΞΫηε • σʔλͷϓϩϑΝΠϧ ΍෼ྨ(छྨ)ʹΑΔཧղ • Ϗδωε༻ޠͱͷؔ࿈ ʹΑΔσʔλͷཧղ • ίϝϯτ΍ϨΠςΟϯ άʹΑΔϢʔβʔධՁ ʹΑΔཧղ • σʔλͷՄࢹԽ • ؆୯ͳσʔλՃ޻ (σʔλϓϦύϨʔγϣϯʣ • ෼ੳϓϩδΣΫτͱ ͷ࿈ܞ Ϗδωε༻ޠ/ΧςΰϦʔ ϙϦγʔɺϧʔϧ σʔλΫϥε ϦϑΝϨϯεσʔλ ϫʔΫϑϩʔ Ϩϙʔτ ϝλσʔλΠϯϙʔτ (ϝλσʔλऔࠐ) ϝλσʔλΤϯϦονϝϯτ (ϓϩϑΝΠϧɺ඼࣭είΞνΣοΫɺ ༻ޠϚοϐϯά) ඼࣭෼ੳɺσʔλϦωʔδϡ ϚεΩϯάϑϩʔ ݕࡧ(Global Search) Χλϩά σʔλΞηοτͷϦίϝϯυ σʔλΞηοτͷϓϨϏϡʔɺϓϩϑΝΠϧɺධՁ/ίϝϯτ σʔλϦϑΝΠφϦʔ ΧελϜɾϓϩύςΟʔ W K C ओ ཁ ػ ೳ ଞαʔϏεͱͷ ࿈ܞ σʔλԾ૝Խ σʔλ෼ੳ
  19. © 2024 IBM Corporation 25 ʲࢀߟࢿྉʳ είΞϦϯάͷ؍఺ʹؔ͢Δઆ໌ࢿྉ データ品質ディメンション違反 (Watson Knowledge

    Catalog) - IBM Documentation (https://www.ibm.com/docs/ja/cloud-paks/cp-data/4.6.x?topic=results-data-quality-violations) データ品質ディメンション違反 検討・整理必要は事項など n ⼤/⼩⽂字の不整合 ü 分析対象データ資産内の⼤/⼩⽂字の使⽤が整合しているかどうかを検査 例)列に含まれている値が、⼩⽂字と⼤⽂字の両⽅で記述されているものとします。 列に 100 個の値があり、そのうち 90 個が⼩⽂字で、10 個が⼤⽂字で、その他の品質ディメ ンションが識別されない場合、列の品質スコアは 90% になります。 これは、値の 10% が⼤⽂字と⼩⽂字が異なるためです。 n ⽋損値の表記の不整合 ü 列内でこの基準に⼀致している各値が特定されます。 品質スコアは、100 パーセントから、特定された値のパーセントを減算した結果に基づく。 n ⽋損値 (Missing Values) ü 列内の⽋損値を検索 n 疑わしい値 ü 特性が異なるために列の他の値の⼤半に⼀致していないと思われる疑わしい値を検索 例)列に 100 個の値が含まれており、そのうち 98 個の値は⻑さが 5 から 9 ⽂字の範囲の数値 ストリングであるが、2 個は 30 から 45 ⽂字のテキスト・ストリングである場合、その 2 個の値 は、他の値の特性に⼀致していないため、疑わしい値として特定される。
  20. © 2024 IBM Corporation 27 ຊ೔ͷσϞͷ֓ཁ データの品質や分布を可視化 ⽋損値や外れ値を把握・修正 ユーザー⾃⾝が、様々な データをGUIで簡単に加⼯

    • 検索機能をつかって探し出す • 他のユーザが作成した加⼯デー タ等を共有・再利⽤が出来る ⽬的に合う正しいデータを 探し取り出す データの特徴・分布状況を 簡単に確認 データ加⼯や結合を容易に ① データカタログ ② データプロファイル ③ セルフETL
  21. © 2024 IBM Corporation 28 σʔλΧλϩάʹ͓͚Δ༷ʑͳλεΫ σʔλΨόφϯενʔϜ σʔλ؅ཧऀ Χλϩά؅ཧऀ σʔλ෼ੳऀ

    σʔλαΠΤϯςΟετ ݕࡧ Find ཧղ Understand ར༻ Use σʔλΨόφϯε Data Governance σʔλऔࠐ/੔ཧ Data Curation Data Quality σʔλར༻ Data Consumption • ΨόφϯεϙϦγʔ/ ϧʔϧͷఆٛ • Ϗδωε༻ޠͷఆٛ • อ༗͢Δσʔλͷछྨ ͷఆٛ (Ͳ͏͍ͬͨσʔ λΛ؅ཧ/ݕग़͢Δ͔ʣ • ্هఆ߲ٛ໨ͷ؅ཧɺ ొ࿥ঢ়گͷ֬ೝ • σʔλ઀ଓͷఆٛͱ ϝλσʔλͷऔࠐ • σʔλͷ඼࣭νΣο Ϋɾ඼࣭෼ੳ • σʔλͷ෼ྨ • Ϗδωε༻ޠͱσʔλ ͷϚοϐϯά • σʔλͷདྷྺ೺ѲɾӨ ڹ෼ੳ • ϚεΩϯάσʔλͷ४උ • ηϧϑαʔϏεͷݕࡧ • Ϧίϝϯσʔγϣϯʹ ΑΔσʔλͷൃݟ • ϚεΩϯάʹΑΔ҆શ ͳσʔλΞΫηε • σʔλͷϓϩϑΝΠϧ ΍෼ྨ(छྨ)ʹΑΔཧղ • Ϗδωε༻ޠͱͷؔ࿈ ʹΑΔσʔλͷཧղ • ίϝϯτ΍ϨΠςΟϯ άʹΑΔϢʔβʔධՁ ʹΑΔཧղ • σʔλͷՄࢹԽ • ؆୯ͳσʔλՃ޻ (σʔλϓϦύϨʔγϣϯʣ • ෼ੳϓϩδΣΫτͱ ͷ࿈ܞ Ϗδωε༻ޠ/ΧςΰϦʔ ϙϦγʔɺϧʔϧ σʔλΫϥε ϦϑΝϨϯεσʔλ ϫʔΫϑϩʔ Ϩϙʔτ ϝλσʔλΠϯϙʔτ (ϝλσʔλऔࠐ) ϝλσʔλΤϯϦονϝϯτ (ϓϩϑΝΠϧɺ඼࣭είΞνΣοΫɺ ༻ޠϚοϐϯά) ඼࣭෼ੳɺσʔλϦωʔδϡ ϚεΩϯάϑϩʔ ݕࡧ(Global Search) Χλϩά σʔλΞηοτͷϦίϝϯυ σʔλΞηοτͷϓϨϏϡʔɺϓϩϑΝΠϧɺධՁ/ίϝϯτ σʔλϦϑΝΠφϦʔ ΧελϜɾϓϩύςΟʔ W K C ओ ཁ ػ ೳ ଞαʔϏεͱͷ ࿈ܞ σʔλԾ૝Խ σʔλ෼ੳ
  22. © 2024 IBM Corporation 31 ·ͱΊ σϞΛ௨ͯ͡Ŋ*#.,OPXMFEHF $BUBMPHͰ ҎԼΛ࣮ࢪ͢ΔࡍͷΠϝʔδΛ௫ΜͰ͍ͨͩ͘ •

    σʔλΛར༻͠΍͍͢؀ڥ ˠʮσʔλΧλϩάʯͬͯͲΜͳ΋ͷʁ • σʔλͷ඼࣭   ˠͲ͏΍ͬͯ඼࣭ΛධՁ͢Δͷʁ ˠ஋ͷ෼෍ͷՄࢹԽŊ"*ʹΑΔείΞϦϯάŊΧελϜ඼࣭ϧʔϧʹΑΓ ඼࣭ධՁΛαϙʔτ͠·͢Ň ˠγεςϜ༻ޠʹϏδωε༻ޠΛ෇༩͠Ŋ σʔλར༻ऀ͕௚ײతʹཧղͰ͖ΔΑ͏ʹ͢Δ΋ͷ ͲΜͳσʔλ͔ Ϗδωε༻ޠŊ඼࣭ ΛΘ͔Γ΍͘͢
  23. © 2024 IBM Corporation 33 ౰೔͍͍࣭ͨͩͨ͝໰΁ͷճ౴ 1 2Ϗδωε༻ޠͱͷϚοϐϯάΛߦ͏࡞ۀ͕࠷΋೉͍͠ͷͰ͸ͳ͍͔ͱࢥ͍·͕ͨ͠ɺͲͷΑ ͏ͳ෦໳ͷͲΜͳਓ͕࣮ࢪ͢Δͷ͕ϕετɾϓϥΫςΟεͰ͠ΐ͏͔ʁ "

    ͝આ໌ʹొ৔ͨ͠ʮσʔλενϡϫʔυʯΛઐ໳ʹஔ͘͜ͱΛਪ঑͍ͨ͠·͢Ň ͝ࢀߟࢿྉɿʮ࣮ફతσʔλɾΨόφϯεͷεεϝʯ ʮਓɾ૊৫ͷ؍఺ʯ෦෼ IUUQTDPNNVOJUZJCNDPNDPNNVOJUZVTFSKBQBOCMPHTQSPWJTJPOJCNWPMBJ σʔλΧλϩάͷಋೖʹ͋͋ͨͬͯŊ੔උʹ͔͔Δ޻਺͕՝୊ͱͳΔͱࢥΘΕ·͢Ň اۀͷ՝୊΍χʔζʹ͋ΘͤͯŊ͔͚Δ޻਺ͱݕࡧޮ཰ԽͷτϨʔυΦϑ͔Β͏·͘όϥϯε ΛͱΔݟۃΊ͕ॏཁͰ͢Ň
  24. © 2024 IBM Corporation 34 ౰೔͍͍࣭ͨͩͨ͝໰΁ͷճ౴ 2 2γεςϜ؅ཧऀ͕࢖༻͢Δը໘ͱҰൠϢʔβʔ͕࢖༻͢Δը໘͸໌֬ʹ෼͔Ε͍ͯΔͷͰ ͠ΐ͏͔ʁ "

    ͸͍ŊݖݶʹΑΓࢀরɾར༻͢ΔػೳΛ੍ޚ͠·͢Ň ͝ࢀߟࢿྉɿʮϢʔβʔ΁ͷ໾ׂͷׂΓ౰ͯ *#.,OPXMFEHF$BUBMPH  ʮΧλϩάͷ໾ׂʯ ෦෼ ʯ IUUQTEBUBQMBUGPSNDMPVEJCNDPNEPDTDPOUFOUXTKHPWFSOBODFBTTJHOSPMFTIUNM MPDBMFKBDPOUFYUDQEBBT
  25. © 2024 IBM Corporation 35 ౰೔͍͍࣭ͨͩͨ͝໰΁ͷճ౴ 3 2σʔλ඼࣭ͷ֬ೝͰʮ֎Ε஋ʯΛఆٛʗදࣔʗ࡟আ͢Δखஈ͸͋Γ·͔͢ʁ·ͨɺ࡟আͨ͠ ৔߹ʹʰ໭͢ʱػೳ͸͋Γ·͔͢ʁ "

    ֎Ε஋ͷදࣔ͸ຊ೔͝঺հͨ͠ϓϩϑΝΠϧը໘Ͱͷ෼෍ͷՄࢹԽʹΑͬͯߦ͏͜ͱ͕Ͱ͖· ͢Ň ࡟আͳͲͷՃ޻͸ηϧϑ&5-πʔϧ %BUB3FGJOFSZ ʹΑͬͯߦ͍·͢Ň৚݅Λఆٛͯ͠Ŋ֘౰͢ ΔσʔλΛ࡟আ͢Δͱ͍ͬͨՃ޻Λߦ͏͜ͱ͕Ͱ͖·͢Ň ࡟আͨ͠৔߹ʹ໭͢ػೳʹ͍ͭͯ͸Ŋ෦෼తʹ͍͟͝·͢Ň %BUB3FGJOFSZͰՃ޻ͷҰ࿈ͷεςοϓΛࢼߦࡨޡ͢Δஈ֊Ͱ͸Ŋલͷεςοϓʹ໭͢͜ͱ͕Ͱ ͖·͢Ň ҰํͰŊ%BUB3FGJOFSZͰͷՃ޻Λऴ͑ͯδϣϒԽ͔ͯ͠Β͸ŊδϣϒʹΑΔՃ޻Λ໭͢ػೳ͸ %BUB3FGJOFSZͱͯ͠͸͓࣋ͬͯΓ·ͤΜŇ ͨͩŊσʔλՃ޻ͷࡍ͸ݩσʔλΛอͬͨ··Ճ޻ŊҠಈ͠Ŋ݁Ռʹ໰୊͕͋Δ৔߹͸Ϧϥϯ͠ ͯ0VUQVUΛ࡞Γ௚͢͜ͱ͕Ұൠతͳ&5-ͷӡ༻Ͱ͋Δͱߟ͓͑ͯΓ·͢Ň