ローカルLLM on iOS の現状まとめ

ϩʔΧϧLLM on iOS ͷݱঢ়·ͱΊ అ मҰʢ@shu223ʣ

ࣗݾ঺հ • అ मҰ • @shu223 (GitHub, Qiita, Zenn, note,
𝕏, YouTube, Podcast, etc...) • ॻ੶ʢ঎ۀग़൛4࡭ɺݸਓग़൛ଟ਺ @BOOTHʣ:

ຊ೔ͷΞδΣϯμ • iOSΦϯσόΠεͰLLMΛಈ͔͢ํ๏ • ࣗ෼ͷΞϓϦʹ૊ΈࠐΉ • ݱঢ়ͱࠓޙͷల๬

༻ޠઆ໌ • ʲLLMʳ: Large Language Models / େن໛ݴޠϞσϧ • ʲϩʔΧϧLLMʳ:
ϩʔΧϧ؀ڥͰಈ͘LLM • ʲΦϯσόΠεॲཧʳ: ॲཧ͕σόΠε಺෦Ͱ׬͍݁ͯ͠Δ ʢΫϥ΢υ΍֎෦αʔόʔʹґଘ͠ͳ͍ʣ

ϩʔΧϧLLM on iOS • ΦϯσόΠεͰॲཧͯ͠·͢ • API͸ୟ͍͍ͯ·ͤΜ • iPhone 15
Pro࢖༻ • ഒ଎࠶ੜ͍ͯ͠·ͤΜ • 8.6 tokens/sec

ϩʔΧϧLLMͷϝϦοτ • ΦϑϥΠϯͰ΋ಈ͘ • ϓϥΠόγʔ͕कΒΕΔʢσʔλ͕Ͳ͜ʹ΋Ξοϓ͞Εͳ ͍ʣ • ͲΕ͚ͩ࢖ͬͯ΋ແྉ ϞόΠϧ୺຤ελϯυΞϩʔϯͰ࠷ઌ୺ͷػೳ͕ಈ࡞͢Δ͜ͱ ʹ͸ৗʹϩϚϯ͕͋Δ

iOSΦϯσόΠεͰLLM Λಈ͔͢ํ๏

iOSͰϩʔΧϧLLMΛಈ͔͢ํ๏ େ͖͘෼͚ͯ2ͭ • llama.cpp • Core ML

llama.cpp • LLM͕ߴ଎ʹಈ͘ϥϯλΠϜ • C/C++੡ • Georgi Gerganov (GG) ͞Μ͕։ൃ
• GGML → GGUFϑΥʔϚοτ

llama.cpp ͱ Apple Silicon • Apple Silicon޲͚ʹ͸ARM NEONɺAccelerateɺMetalϑ ϨʔϜϫʔΫͰ࠷దԽ •
ʮϩʔΧϧLLMΛಈ͔ͤΔmacOSΞϓϦʯͷଟ͕͘ llama.cppΛ಺෦Ͱར༻ • Ollama, LM Studio, LLMFarm, etc... • GGUFϑΥʔϚοτͷϞσϧΛ࢖༻͢Δ

llama.cpp ͱ iOS • "Apple Slicon޲͚࠷దԽ" ͸MγϦʔζ͚ͩͰͳ͘ɺiPhone ͷAγϦʔζ΋ର৅

iOSͰϩʔΧϧLLMΛಈ͔͢ํ๏ େ͖͘෼͚ͯ2ͭ • llama.cpp • Core ML

Core MLͱ͸ • ػցֶशϞσϧΛiOS, macOS, etc. ʹ૊ΈࠐΉͨΊͷApple ੡ͷϑϨʔϜϫʔΫ, ϞσϧϑΥʔϚοτ •
CPUɾGPUɾNeural EngineΛར༻͠ɺϝϞϦ઎༗ྔͱిྗ ফඅྔΛ࠷খݶʹ཈͑ͭͭύϑΥʔϚϯεΛ࠷େݶʹߴΊΔ Α͏ʹઃܭ͞Ε͍ͯΔ

Neural Engine͸API͕ͳ͍ • Core MLΛར༻ͨ͠৔߹ͷΈNeural EngineΛར༻Ͱ͖Δ • → Apple SilliconʢiPhoneͷAγϦʔζ΋ؚΉʣͷੑೳΛ࠷΋
׆͔ͤΔͷ͸Core MLʂ

Core ML vs llama.cpp • Neural Engine Λ׆͔ͤΔ෼ɺCore ML͕༗རʁ

LLMϞσϧΛCore MLʹม׵͢Δํ๏ • coremltoolsΛ࢖͏ • ೉͍͠ʢྫɿcoremltoolsΛ༻͍ͨCore MLϞσϧ΁ͷม ׵ - Sansan
Tech Blog ʣ • Hugging Face͕ެ։͍ͯ͠Δม׵πʔϧ exporters Λ࢖͏

! exporters • TransformersϞσϧΛCore MLʹม׵͢Δπʔϧ • coremltoolsΛϥοϓͨ͠΋ͷͰ͸͋Δ͕ɺม׵ʹ൐͏ ৭ʑͳ໰୊ΛπʔϧଆͰٵऩͯ͘͠Ε͍ͯΔ • ཁ͸͜ͷπʔϧΛ࢖͑͹coremltoolsΛͦͷ··࢖͏ΑΓ
΋؆୯ʹTransformersϞσϧΛCore MLϞσϧʹม׵Ͱ͖ Δ

ʢิ଍ࢿྉʣ ! exporters ͷ࢖͍ํ • هࣄɿ TransformersϞσϧΛCore MLʹม׵͢Δπʔϧ exporters Λࢼ͢
• LLMϞσϧΛCore MLʹม׵͢Δ͜ͱʹ͸੒ޭ

ʢ௕͘ͳ͖ͬͯͨͷͰதུʣ ͜ͷྲྀΕͰݴ͍͍ͨ͜ͱɿ Core MLϞσϧ΁ͷม׵πʔϧ͸͋ Δ͕ɺม׵ࡁΈϞσϧ͸΄ͱΜͲެ։͞Ε͓ͯΒͣɺྔࢠԽ౳ ࣗ෼Ͱ৭ʑ͕Μ͹Δඞཁ͕͋Δ

llama.cpp ޲͚ͷϞσϧ͸Ͳ ͏͔ʁ ΄ͱΜͲͷϩʔΧϧLLM͕৭ʑͳύλʔ ϯͰྔࢠԽ͞ΕGGUFϑΥʔϚοτͰެ ։͞Ε͍ͯΔʢTheBloke ͕༗໊ʣ

Core ML vs llama.cpp • Neural Engine Λ׆͔ͤΔ෼ɺCore ML͕༗རʁ •
֤छϩʔΧϧLLMΛʮ͙͢ʹࢼͤΔʯ఺Ͱ͸ѹ౗తʹ llama.cpp

͜͜·Ͱͷ·ͱΊ • iOSͰϩʔΧϧLLMΛಈ͔͢खஈͱͯ͠͸llama.cppͱCore ML͕͋Δ • ͲͪΒ΋Apple Siliconʹ࠷దԽ͞Ε͍ͯΔ͕ɺNeural EngineΛ׆͔ͤΔͷ͸Core MLͷΈ •
llama.cpp͸ྔࢠԽࡁΈɾม׵ࡁΈͷϞσϧͷબ୒ࢶ͕๛෋ ʹ͋Δ

ࣗ෼ͷΞϓϦʹ૊ΈࠐΉ

llama.cpp • खܰʹΞϓϦʹ૊ΈࠐΊΔΑ͏ʹຊՈϦϙδτϦʹSwift Package͕༻ҙ͞Ε͍ͯΔ • ͦͷSwift Packageͷ࢖͍ํΛࣔ͢αϯϓϧ΋ಉϦϙδτϦʹ ༻ҙ͞Ε͍ͯΔ • examples/llama.swiftui

Core ML • ! exporters Ͱม׵ͨ͠Core MLϞσϧΛΞϓϦͰಈ͔ͨ͢ ΊͷϥούʔϥΠϒϥϦͱͯ͠ swift-transformers ͱ͍͏
Swift Package͕༻ҙ͞Ε͍ͯΔ • ͦͷαϯϓϧΞϓϦ΋ެ։͞Ε͍ͯΔ

iOSΦϯσόΠεͰಈ͘ LLMϞσϧͷݱঢ়

Ϟσϧͷ୳͠ํ • Hugging Face HubͰ୳͢ʢGGUF / Core MLʣ • LLMFarm
ͷ͜͜ ɾɾɾಈ࡞ݕূࡁΈϞσϧ͕αΠζͱڞʹ ϦετΞοϓ͞Ε͍ͯΔ • llama.cpp ͷ README ͷ "Supported models" ΍ɺ͜ ͜ɾɾɾ֤छϞσϧͷiPhoneͰͷϕϯνϚʔΫ

ࢼͯ͠ΈͨϞσϧͷྫ • Mistral 7B v0.1 ʢൺֱతখ͞ͳαΠζͰ༏लʣ • Q3_K_S (3.16GB) •
Q4_K_S (4.14GB) • Calm 2 7B Chat ʢ೔ຊޠLLMʣ • Q3_K_S (3.47GB) • Q4_K_S (3.12GB) • Q4_K_M (3.47GB)ɾɾɾiPhone 15 ProͰΫϥογϡ

Mistral 7B v0.1 • Q4_K_S • 4-bitྔࢠԽ • 4.14GB •
ϩʔσΟϯά ໿15ඵ • ςΩετੜ੒଎౓ 8.66 t/s

Calm2 7B Chat • Q3_K_S • 3-bitྔࢠԽ • 3.12GB •
ϩʔσΟϯά ໿25ඵ • ςΩετੜ੒଎౓ 1.89 t/s

ݱঢ়ͷॴײ ʢ˞1,2ճࢼ͚ͨͩ͠ͷॴײͰ͢ʣ • ճ౴಺༰͸ ! • ਪ࿦଎౓΋ !

ͱ͸͍͑

ݱঢ়Ͱ͸ϓϩμΫτͰͷ࣮༻͸ݫͦ͠͏ • αΠζͷ໰୊ɿ 3-bit or 4-bit ྔࢠԽͨ͠ϞσϧͰ΋3GBʙ • ΞϓϦʹ૊ΈࠐΉΘ͚ʹ͸͍͔ͳ͍ʗϢʔβʔʹμ΢ϯϩ ʔυͤ͞ΔΘ͚ʹ΋͍͔ͳ͍
• ॲཧ଎౓ͷ໰୊ɿ Ϟσϧͷϩʔυʹ͕͔͔࣌ؒΔʗਪ࿦଎౓ ΋·ͩݫ͍͠ → APIΛୟ͍ͨํ͕଎͍ • ࢖༻ϝϞϦྔͷ໰୊ɿ ਺GBඞཁ

ࠓޙͷల๬

ϫΫϫΫ͔͠ͳ͍ • Ϟσϧੑೳɿ ΑΓগͳ͍ύϥϝʔλ਺ͰߴੑೳͳϞσϧ͕ ೔ʑੜ·Ε͍ͯΔ • ྔࢠԽख๏ɿ ೥ʑਐԽɺBitNetͳΔ΋ͷ΋ొ৔ • σόΠεੑೳɿ
ϝϞϦ༰ྔ΋GPUɾNeural Engineͷੑೳ΋ ೥ʑਐԽ • ม׵ࡁΈϞσϧͷଟ༷ੑɾɾɾCore MLม׵ࡁΈͷLLM΋ॆ ࣮ͯ͘͠Δʢ͸ͣʣ

ΦϯσόΠεͰLLM͕αΫαΫಈ͘೔΋͍ۙʂ

Wrap up • iOSͰϩʔΧϧLLMΛಈ͔͢खஈ͸େ͖͘2௨Γ • llama.cppɿ ྔࢠԽࡁΈɾม׵ࡁΈϞσϧͷબ୒ࢶ͕๛෋ • Core MLɿ
Neural Engine࢖͏ • iOSσόΠεͰಈ͔͢ʹ͸ʮݱঢ়Ͱ͸ʯσΧ͗͢Δ͠ॏ͗͢ Δ • ͕ɺେ͍ʹر๬͸͋Δʂ

͝ਗ਼ௌ͋Γ͕ͱ͏͍͟͝·ͨ͠ʂ

ローカルLLM on iOS の現状まとめ

ローカルLLM on iOS の現状まとめ

More Decks by shu223

Other Decks in Technology

Featured

Transcript