Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JSAI2024: 大規模マルチモーダルモデルによるプライバシーを保護したデータアノテーション自動化

WY
May 31, 2024
52

JSAI2024: 大規模マルチモーダルモデルによるプライバシーを保護したデータアノテーション自動化

JSAI2024

WY

May 31, 2024
Tweet

Transcript

  1. KYOTO UNIVERSITY 3 ݚڀഎܠ: σʔλϓϥΠόγʔΛอޢ͠ͳ͕ΒLMMΛ׆༻ ▪ େن໛ϚϧνϞʔμϧϞσϧ(Large Multimodal Model, LMM)͸

    ςΩετ෼ੳɼԻ੠ͷจࣈى͜͠ɼޫֶจࣈೝࣝ౳ͷ 
 ༷ʑͳλεΫͰֵ৽తͳੑೳΛൃشɽ ▪ ҰํɼLMMਪ࿦αʔϏεͷೖྗσʔλ͸อଘ͞ΕΔɼ 
 ֶशσʔλͱͯ͠ར༻͞ΕΔՄೳੑ͕ଘࡏɽ ▪ σʔλϓϥΠόγʔΛอޢ͠ͳ͕ΒLMMΛ׆༻͢ΔͨΊͷ ٕज़͕ٻΊΒΕ͍ͯΔ
  2. KYOTO UNIVERSITY 4 ݚڀഎܠ: 
 େن໛ϚϧνϞʔμϧϞσϧʹΑΔΞϊςʔγϣϯ ▪ σʔλΞϊςʔγϣϯͷࣗಈԽʹLMMΛԠ༻͢Δ ▪ ਓؒͷख࡞ۀͱൺ΂ͯߴ଎͔ͭߴ඼࣭ͳΞϊςʔγϣϯ͕ظ଴͞ΕΔ

    ▪ ҰํɺLMMར༻࣌͸σʔλͷϓϥΠόγʔอޢ͕ඞཁ ▪ ຊݚڀͰ͸ɺLMMΛ࢖ͬͨը૾ΞϊςʔγϣϯΛର৅ʹɺ 
 Ξϊςʔγϣϯਫ਼౓ͱൿಗ৘ใอޢΛཱ྆͢Δख๏ΛఏҊ
  3. KYOTO UNIVERSITY 6 ؔ࿈ݚڀ (Data Annotation 1/2) LLMΛ༻͍ͨςΩετΞϊςʔγϣϯ ▪ 2020೥ͷΞϝϦΧେ౷ྖબʹ͓͚Δ

    
 X(Twitter)ͷςΩετ͔Β੓࣏తॴଐΛΞϊςʔγϣϯ ▪ ChatGPT-4͕ઐ໳ՈɾΫϥ΢υϫʔΧʔΑΓ΋ߴਫ਼౓ɺ ෼ྨͷภΓ͕গͳ͍͔ಉ౳ͷ݁Ռ GPT-4 GPT-4
  4. KYOTO UNIVERSITY 7 ؔ࿈ݚڀ (Data Annotation 1/2) LMMΛ༻͍ͨը૾Ξϊςʔγϣϯ ▪ Visual

    ChatGPT(ChatGPTΛಠࣗʹϚϧνϞʔμϧԽͨ͠Ϟσϧ)Ͱ ߤۭࣸਅͷ௚ઢݕग़΍ηάϝϯςʔγϣϯΛߦͬͨɽ ▪ ਫ਼౓͸λεΫͷੑ࣭ʹґଘ ▪ ֶशσʔλʹ͸λεΫ༻ͷσʔλؚ͕·Ε͍ͯͳ͍͕ɼ 
 શମͱͯ͠ϥϯμϜਪଌΛେ෯ʹ্ճΔਫ਼౓͕ಘΒΕͨ
  5. KYOTO UNIVERSITY 8 ؔ࿈ݚڀ (Privacy-preserving computing 1/2) Cipher GPT ▪

    ൿີܭࢉ(σʔλΛ҉߸Խͨ͠··ܭࢉ͢Δ͜ͱ)Λ 
 େن໛ݴޠϞσϧͰ࣮૷͢Δ͜ͱ͸ݱ࣮తͰͳ͍ɽ ▪ Cipher GPT: ൿີܭࢉ͕ՄೳͳGPT-2 
 ɹ256τʔΫϯͷೖྗ͔Β256τʔΫϯͷग़ྗʹɼ 
 ɹฏۉ 24 ෼ͷϨΠςϯγͱ 93 GBͷଳҬ෯͕ඞཁ ▪ ൿີܭࢉ͕Ͱ͖ͳ͍େن໛ϚϧνϞʔμϧϞσϧʹ΋ɼ 
 ೖྗσʔλΛՃ޻ॲཧ͢Δ͜ͱͰϓϥΠόγʔΛอޢ͢Δ ͜ͱΛ໨ࢦ͢ɽ
  6. KYOTO UNIVERSITY 9 ؔ࿈ݚڀ (Privacy-preserving computing 2/2) ೖྗϓϩϯϓτͷൿಗԽ ▪ Hide

    and Seek(HaS)ϑϨʔϜϫʔΫ ▪ ೖྗதͷਓ໊΍࣌ؒ౳ͷہॴతͳػີ৘ใΛಗ໊Խ 
 ಗ໊Խ⁶ඇಗ໊Խͷஔ׵ؔ܎ΛผͷݴޠϞσϧֶ͕श ▪ ຊݚڀ͸ɼ୯७ͳஔ׵ͰରԠՄೳͳہॴతͳ৘ใͰ͸ͳ͘ɼ จষͷτϐοΫ౳ͷೖྗσʔλશମ͔ΒಘΒΕΔ৘ใͷ 
 อޢΛର৅ͱ͢Δɽ
  7. KYOTO UNIVERSITY ▪ Ξϊςʔγϣϯͷࠜڌ͸ը૾ͷہॴతͳ෦෼ʹଘࡏ͠ɺ 
 ϓϥΠόγʔ͸ը૾શମͷ৘ใ͔ΒऔಘͰ͖Δ৔߹ʹ༗ޮ 
 (ྫ: إݕग़ɾOCR) ▪

    Ξϊςʔγϣϯͷࠜڌ: ▪ ը૾ʹਓؒͷإ͕͍ࣸͬͯΔ͔ʁ ▪ ը૾શମ͔ΒಘΒΕΔେҬతͳϓϥΠόγʔ: ▪ ը૾ʹ͍ࣸͬͯΔਓ͕Կͷಈ࡞Λ͍ͯ͠Δ͔ʁ 14 ఏҊख๏ 
 ը૾Λ੾Γग़ͯ͠LMMʹೖྗɺग़ྗΛݩͷը૾ʹ౷߹
  8. KYOTO UNIVERSITY 16 ࣮ݧ:ਓؒͷإͷΞϊςʔγϣϯ σʔληοτ ▪ ࣮ݧ: 
 ը૾ʹਓؒͷإ͕͍ࣸͬͯΔ͔True/FalseͰΞϊςʔγϣϯ ▪

    2ͭͷσʔληοτΛར༻ 
 ਓؒͷإΛؚΉσʔλ: Stanford 40 Action Dataset ▪ “Cooking”ͳͲͷಛఆͷΞΫγϣϯΛߦ͏ 
 ਓؒͷը૾σʔληοτ ▪ ࣮ݧͰ͸10ͷΞΫγϣϯΫϥεΛબ୒ σʔλྫ
  9. KYOTO UNIVERSITY 17 ࣮ݧ:ਓؒͷإͷΞϊςʔγϣϯ σʔληοτ ▪ ࣮ݧ: 
 ը૾ʹਓؒͷإ͕͍ࣸͬͯΔ͔True/FalseͰΞϊςʔγϣϯ ▪

    2ͭͷσʔληοτΛར༻ 
 ਓؒͷإΛؚ·ͳ͍σʔλ: ADE20K Dataset ▪ “Bedroom”, ”Aquarium” ͳͲ 
 γʔϯը૾ͷσʔληοτ ▪ ࣮ݧͰ͸ɺਓ͕͍ؒࣸͬͯͳ͍ 
 ը૾Λ100ຕબΜͩ σʔλྫ
  10. KYOTO UNIVERSITY 18 ࣮ݧ:ਓؒͷإͷΞϊςʔγϣϯ ධՁࢦඪ ▪ ࣮ݧͰ͸ɺΞϊςʔγϣϯਫ਼౓ͱϓϥΠόγʔ࿙ӮϦεΫͷ 
 2ͭͷࢦඪΛධՁͨ͠ ▪

    Ξϊςʔγϣϯਫ਼౓: 
 ɹఏҊख๏ʹΑΔΞϊςʔγϣϯͷਖ਼ղ཰ ▪ ϓϥΠόγʔ࿙ӮϦεΫ: 
 1. ਓͷإΛؚΉ100ຕͷΞϊςʔγϣϯը૾Λೖྗ 
 2. ਓ͕ԿͷΞΫγϣϯΛ͍ͯ͠Δ͔10Ϋϥε෼ྨ 
 3. ෼ྨਫ਼౓ΛϓϥΠόγʔ࿙ӮϦεΫͱͯ͠ධՁ ͜ͷਓ͸ԿΛ 
 ͍ͯ͠Δ͔ʁ ϓϥΠόγʔ࿙Ӯ 
 ϦεΫͷධՁ
  11. KYOTO UNIVERSITY 21 ݁࿦ ▪ ຊݚڀͰ͸ɺେҬతͳϓϥΠόγʔΛอޢ͠ͳ͕Β 
 ΞϊςʔγϣϯΛߦ͏ϑϨʔϜϫʔΫΛఏҊ ▪ Large

    Multimodal Model (LMM)Λ༻͍࣮ͨݧΛߦ͍ɺ 
 Ξϊςʔγϣϯਫ਼౓ͱϓϥΠόγʔ࿙ӮϦεΫͷ 
 τϨʔυΦϑΛݕূͨ͠ɻ ▪ ఏҊख๏ʹ͓͍ͯը૾Λࡉ͔͘෼ׂ͢Δ͜ͱͰɺ 
 Ξϊςʔγϣϯਫ਼౓Λҡ࣋͠ͳ͕Βɺ 
 ϓϥΠόγʔ࿙ӮϦεΫΛେ෯ʹ௿ݮͰ͖Δ͜ͱΛࣔͨ͠