Upgrade to Pro — share decks privately, control downloads, hide ads and more …

오픈소스 라이선스와 오픈 AI 모델 / Open Source Licenses and ...

오픈소스 라이선스와 오픈 AI 모델 / Open Source Licenses and Open AI Models

이 발표는 오픈소스 라이선스와 오픈 AI 모델에 대한 전반적인 이야기를 나눕니다. 오픈소스 소프트웨어의 발전과 그 생태계의 빠른 변화 속도와 함께 오픈소스의 성공적인 적용을 소개합니다. 또한, 다양한 오픈소스 라이선스와 그 복잡성을 설명합니다.
이러한 오픈소스 개념이 AI 모델로 연결되며 생기는 여러 충돌들을 다루고, OSAID (Open Source AI Definition)의 등장과 그 기준을 설명합니다. AI 시스템의 투명성, 접근성, 수정 가능성 등을 강조하며, AI와 오픈소스의 미래 방향에 대해 이야기해봅니다. 끝으로는 AI 기술의 자본 집약적 변화와 오픈소스 모델의 대응 방안을 논의합니다.

이 발표는 2024년 12월 6일 서울 COEX에서 열린 오픈소스 페스티벌의 세션 발표로 진행되었습니다. 원 발표 자료의 경우 발표에 맞추어 이야기를 따라가도록 만들었기 때문에, 읽는 것 만으로도 설명이 가능하도록 내용을 조정하고 수정한 자료입니다.

This presentation discusses open source licenses and open AI models comprehensively. It introduces the successful implementation of open source alongside the development of open source software and its rapidly changing ecosystem. Additionally, it explains various open source licenses and their complexities.

The presentation addresses various conflicts that arise when open source concepts extend to AI models, and explains the emergence and standards of OSAID (Open Source AI Definition). It emphasizes the transparency, accessibility, and modifiability of AI systems while exploring the future direction of AI and open source. Finally, it discusses the capital-intensive transformation of AI technology and response strategies for open source models.

This presentation was delivered as a session at the Open Source Festival in Seoul on December 6, 2024. While the original presentation materials were designed to follow along with the live presentation, this version has been adjusted and modified to be self-explanatory when read independently.

Jeongkyu Shin

December 11, 2024
Tweet

More Decks by Jeongkyu Shin

Other Decks in Technology

Transcript

  1. AI Enterprise AI Cloud AI Open Source AI MLOps 오픈소스

    라이선스와 오픈 AI 모델 신정규 Lablup Inc. 2024년 12월 6일 / 오픈소스 페스티벌
  2. • 오픈소스 및 오픈소스 개발 방법론 – 현대 프로그래밍 개발

    및 생태계에서 가장 중요한 축 – 기존의 컴퓨터 언어 및 개발 과정과 큰 차잇점 • 오픈소스 소프트웨어 생태계 – 개발 방법론이 등장하고 성숙하는 과정에 걸리는 시간이 기존 컴퓨터 생태계에 비해 굉장히 짧음 – 엄청나게 빠른 발전속도 – 프론트엔드, 백엔드 언어를 막론하고 하나의 개발 방법론이 등장하고 성숙하는데 걸리는 시간은 1년 미만 오픈소스의 세상
  3. • Microsoft Windows 의 기본 브라우저인 Edge의 개발 계획 변경

    (2018.12) – Edge Browser = EdgeHTML + ChakraCore – Chromium 기반으로 새로 작성하기로 결정 – 결과는 성공적 ✓ Edge의 점유율 상승 및 안정적 기반 확보 ✓ 멀티 OS 브라우저 시장에의 성공적 안착 – 왜? 공개 소프트웨어의 세상: Chromium 기반의 Microsoft Edge [1] https://github.com/Microsoft/ChakraCore
  4. 오픈소스 라이선스 • 자유 소프트웨어 라이선스보다 조금 더 자유롭고 상업적으로

    사용 가능한 라이선스 • ”Open Source” – OSI (Open Source Initiative) (1998) 에서 정의 • 정의 – 자유로운 사용: 어떤 목적으로든 허가를 요청할 필요 없이 시스템을 사용할 수 있다. – 연구 및 검사 가능: 시스템 작동 방식을 연구하고 구성 요소를 검사할 수 있다. – 수정 가능: 출력 변경을 포함해 어떤 목적으로든 시스템을 수정할 수 있다. – 공유 가능: 다른 사람이 어떤 목적으로든 수정 여부를 불문하고 시스템을 공유할 수 있다.
  5. • 오픈소스 적용하기 – 기존 라이선스와 배포를 위한 라이선스 확인

    – 기존 코드의 라이선스를 타 라이선스의 코드와 합칠 경우 라이선스의 호환 여부 – 자체적으로 확인 필요 • SBOM (Software Bill of Material) – 공급망 검사 규정 – 보안 이슈로 인해 등장 ✓ Log4J 사건 등… – 다양한 SBOM 도구들 등장 ✓ 오픈소스 확인이 함께 쉬워졌음 오픈소스 라이선스의 복잡성
  6. • TAPR OHL (Open Hardware License) • CERN OHL –

    CERN의 장치 구축을 위해 개발된 장치들의 라이선스 • OSHW (2011) – Open Hardware Summit • 많은 양의 라이선스 존재 – 대부분의 라이선스가 소프트웨어 카운터파트의 하드웨어 라이선스라고 명기함 오픈소스 하드웨어 라이선스 • 소프트/하드웨어 라이선스 – GPL – LGPL – MIT – CC (Creative Commons) – FreeBSD
  7. • 라이센서 특허 – MPL, Apache: 관련 특허권의 라이선스도 무상

    제공으로 간주 – GPL: 묵시적 라이선스 제공 – GPL 3: 자신이 기여한 부분과 관련된 특허권 라이선스를 무상으로 기여하는 것으로 규정 • 라이센시 특허 • 제3자 특허 특허권 관련: 공급자 특허
  8. • 라이센시 특허 – 이용자가 특허권을 가지고 있는 경우 –

    MPL의 특수예 ✓ 그냥 사용때는 문제가 없음. ✓ 이용자가 자신의 특허권을 근거로 소송을 제기할 경우 철회하지 않는한 라이선스 종료 / MPL 프로그램 사용권 박탈 / 그동안 사용한 부분에 대한 로열티 산정 – Apache 2.0 / GPL 3의 경우 MPL과 유사한 조항 추가. • 제3자 특허 – 특허 소유자와 구현자가 다른 경우 – GPL ✓ 명시적인 특허권 허용이 없는 경우 그 프로그램을 GPL로 배포할 수 없음 ✓ 특허권자가 이용자들을 차별하여 라이선스를 부여할 수 없음 (GPL 3.0) 특허권 관련: 이용자 특허
  9. • 복수 라이선스 적용 – 모질라 라이선스의 경우: 트리플 라이선스

    (MPL, GPL, LGPL) – QT 라이선스의 경우 (QPL, GPL) – GPL 3.0 과 Affero GPL 3.0 • 왜? – 오픈소스 기반 상업화 과정에서의 충돌 – “Tivo 사태”: GPL 3 의 등장 • 중요성 – 사실상 현재의 소프트웨어는 거의 모두 오픈소스에 기반하고 있음 듀얼 라이선스
  10. Now I ask you--does a musician have the right to

    collect the royalty on the sale of his records or does a writer have the right to collect the royalty on the sale of his books? Are people who copy software any different than those who copy records and books? 음악가에게 음반 판매에 대한 로열티를 받을 권리가 있나요, 아니면 작가에게 책 판매에 대한 로열티를 받을 권리가 있나요? 소프트웨어를 복사하는 사람과 음반이나 책을 복사하는 사람이 다를까요? - “An Open Letter to Hobbyists”, Bill Gates (1975)
  11. 라이선스 2003년 2013년 2023년 MIT License 22.4% 29.2% 32.1% Apache

    License 2.0 19.4% 25.2% 21.7% GPLv2 20.2% 15.1% 11.0% GPLv3 9.1% 10.3% 10.8% BSD License 8.5% 8.0% 6.1% Artistic License 2.0 3.7% 2.9% 2.4% LGPLv2.1 3.2% 2.7% 2.1% LGPLv3 1.4% 1.5% 1.5% 기타 12.2% 8.3% 8.3%
  12. • 이유 – GitHub 이후에 활성화된 컴퓨팅 기반 연구+서비스 분야

    – 타 분야는 오픈소스화 과정을 거쳤지만 딥 러닝은 그런 과정이 필요하지 않았음 • 실질적인 이유 – 너무 빠른 변화 속도: 6주, 90일, 6개월, 2년 – 규모가 유도하는 성능 향상 – 노하우에 가까운 개발 과정 ✓ 코드를 공개해도 못 만들 걸 AI/딥 러닝: 오픈소스 문화 기반 분야
  13. 연산 비용의 감소 Date Approximate cost per GFLOPS Approximate cost

    per GFLOPS (2018 US Dollar) Approximate cost per TFLOPS (2017 US dollars) 1961 $18.7 billion $156.8 billion $156.8 trillion 1984 $18,750,000 $45,220,000 $44.2 billion 1997 $30,000 $47,000 $46,000,000 Apr-00 $1,000 $1,480 $1,440,000 May-00 $640 $944 $922,000 Aug-03 $82 $112 $109,000 Aug-07 $48 $58 $57,000 Mar-11 $1.80 $2.03 $1,980 Aug-12 $0.75 $0.82 $800 Jun-13 $0.22 $0.24 $230 Nov-13 $0.16 $0.17 $170 Dec-13 $0.12 $0.13 $130 Jan-15 $0.08 $0.08 $80 Jun-17 $0.06 $0.06 $60 Oct-17 $0.03 $0.03 $30 Q4 2018 $0.02 $0.02
  14. 딥러닝 모델 복잡도의 급격한 증가 [1] “Computing Power and the

    Governance of Artificial Intelligence”, Hadfield et al., 2024
  15. • 오픈소스 라이선스를 빌려오거나, • Creative Commons 에서 빌려오거나 •

    오픈소스 모델 라이선스 – MIT – Apache 2 • 허용적이나 모델 사용 용도를 제한하는 라이선스 – CreativeML Open RAIL-M 초기 AI 모델 라이선스
  16. License Data Architecture Weights Size Checkpoints Language Meta Llama 3.1

    Llama license Closed Open Open 8, 70, 405 Yes English / Multilingual EleutherAI Pythia Apache 2.0 Open Open Open 7, 12 Yes English EleutherAI Polyglot GPL-2.0 Open Open Open Yes English / Multilingual GPT-J MIT Open Open Open 6 Yes English Databricks Dolly 2 Apache 2.0 Open Open Open 7, 12 Yes English Cerebras-GPT Apache 2.0 Open Open Open 7, 13 Yes English / Multilingual StableLM CC BY-SA-4.0 Open Open Open 3, 7, (15, 30, 65, 175) Yes English Mosaic MPT Apache 2.0 Open Open Open 7, 30 Yes English Falcon2 Apache 2.0 Open Open Open 7, 40, 180 Yes English / Arabic Mistral Apache 2.0 Open Open Open 7 Yes Multilingual Google Gemma 2 Gemma license Closed Open Open 2,9,27 Yes Multilingual
  17. • Llama 3 (2024. 7) – Llama의 최근 업그레이드 모델

    – 상업적 이용이 거의 제약없이 풀려있음 ✓ (de facto, 그러나 제약이 없는 것은 아님) • DBRX (2024년 3월) – 데이터브릭스의 오픈 모델 ✓ MosaicML 모델의 후속 모델 – 132B 크기 / MoE 기반 – 몇몇 제한 존재 ✓ “다른 모델 훈련용으로 쓰지 마라” 같은… – GPT 3.5를 능가하는 성능 • Nemotron 4-340B (2024년 6월) – NVIDIA의 오픈 모델 – 340B: 공개 오픈 모델들 중 가장 큰 규모 – 상업적 용도 무제한 허용 ✓ (기존에 공개한 작은 크기의 모델들도 있음) – 합성데이터 생성용으로 권장 사전 훈련 오픈 언어 모델 • Mistral (2023년 11월) – 10B 미만의 크기 중 가장 다양한 용도로 동작 ✓ 다른 모델의 교정 모델로 사용할 수 있음 ✓ “Model distillation” – 완전 오픈 모델 (MIT 호환) – 작은 크기를 이용한 응용 케이스 ✓ Mixtral 8x7B: 실질적으로 적용가능한 크기의 MoE (Mixture of Experts), 12B만큼의 메모리로 동작 – Mistral Pro/Large 공개 (2024년 2월) ✓ 더 큰 모델, GPT-4 필적 성능 • Gemma 2 (2024년 6월) – Google 의 공개 모델 ✓ Gemini와 동일 기술 사용 – Llama2 대비 제약이 굉장히 적은 라이선스 ✓ Gemma License: 사실상 제약 없음 – 상대적으로 작은 모델: 2B, 9B, 27B 모델 – 멀티모달 버전 공개: PaliGamma (2024년 5월)
  18. • OSI (Open Source Initiative) 가 공개한 오픈소스 정의에 부합하는

    딥 러닝 모델의 정의 • 진행 – 2023년 6월 ✓ 샌프란시스코에서 첫 OSAID 회의 개최 ✓ OSI 이사회 구성원, 모질라 재단, 크리에이티브 커먼즈, 위키미디어 재단, 인터넷 아카이브, 리눅스 재단 유럽, OSS 캐피탈 – 2023년 10월 ✓ 오픈소스 AI 시스템을 정의하기 위한 글로벌 커뮤니티 이니셔티브 시작 – 2024년 10월 28일 ✓ '올씽스 오픈 2024' 컨퍼런스에서 OSAID 1.0 버전 공개 ✓ 프로젝트의 첫 번째 안정 버전 ✓ 허가가 필요 없는, 실용적이고 단순화된, 협업을 재창조할 수 있는 일련의 원칙 OSAID (Open Source AI Definition)
  19. • OSD 다시 보기 – 자유로운 사용 ✓ 어떤 목적으로든

    허가를 요청할 필요 없이 시스템을 사용할 수 있다. – 연구 및 검사 가능 ✓ 시스템 작동 방식을 연구하고 구성 요소를 검사할 수 있다. – 수정 가능 ✓ 출력 변경을 포함해 어떤 목적으로든 시스템을 수정할 수 있다. – 공유 가능 ✓ 다른 사람이 어떤 목적으로든 수정 여부를 불문하고 시스템을 공유할 수 있다. • 기본적으로 OSD와 OSAID는 많은 부분 공유 • 차잇점? OSAID 1.0 요약
  20. • 목적 – OSD: 주로 소프트웨어의 소스 코드에 초점을 맞추고

    있으며, 소프트웨어의 자유로운 사용, 수정, 배포를 보장 – OSAID: AI 시스템의 투명성, 접근성, 수정 가능성 등을 포함하여 AI 시스템의 윤리적 사용을 촉진 • 적용 범위 – OSD: 소프트웨어 개발자와 사용자에게 적용되며, 소프트웨어의 소스 코드 공개 강조 – OSAID: AI 시스템 개발자와 사용자에게 적용되며, AI 시스템의 알고리즘, 데이터, 모델 등의 공개 강조 • 기준 – OSD: 소프트웨어의 자유로운 사용, 수정, 배포를 위한 10가지 기준 – OSAID: AI 시스템의 투명성, 접근성, 수정 가능성 등을 위한 7가지 기준 OSD 와 OSAID의 차잇점
  21. • 자유로운 사용 – AI 시스템은 어떤 목적으로든 허가를 요청할

    필요 없이 사용할 수 있어야 함 • 연구와 검사 – 시스템의 작동 방식을 연구하고 구성 요소를 검사할 수 있어야 함 • 수정 가능성 – 출력 변경을 포함해 어떤 목적으로든 시스템을 수정할 수 있어야 함 • 공유 가능성 – 다른 사람이 어떤 목적으로든 수정 여부를 불문하고 사용할 수 있도록 시스템을 공유할 수 있어야 함 • 데이터 접근성 – AI 시스템의 데이터 처리와 관련된 전체 코드가 오픈소스로 제공되어야 함 • 모델 투명성 – AI 모델의 알고리즘, 데이터, 모델 등이 공개되어야 함 • 법적 메커니즘 – 모델 매개변수가 모든 사람에게 자유롭게 제공되도록 보장하는 특정 법적 메커니즘이 필요하지 않아야 함 OSAID의 7가지 기준
  22. OSAID의 7가지 기준 사용 권리 훈련용 코드 모델 체크포인트 모델

    가중치 훈련 데이터 자유로운 사용 연구와 검사 수정 가능성 공유 가능성 데이터 접근성 모델 투명성 법적 메커니즘
  23. • 찬성 – 투명성과 접근성 향상 ✓ AI 시스템을 자유롭게

    사용, 연구, 수정 및 공유할 수 있도록 명확한 기준을 설정 – 협업과 혁신 촉진 ✓ 데이터, 코드, 모델 파라미터와 같은 핵심 구성 요소에 대한 무제한 접근으로, 개발자와 연구자 간의 협업 장려 및 혁신 가속화 – 표준화 ✓ 표준화된 정의를 설정함으로써 정책 입안자, 개발자 및 기타 이해 관계자들이 더 일관된 접근 방식을 취할 수 있도록 함 • 반대 – 보안 및 윤리적 문제 ✓ 이는 특히 고위험 응용 프로그램에서 책임 있는 AI 배포에 필수적인 안정성과 윤리적 사용에 대한 명확한 고려 부족 – 모호성과 집행 문제 ✓ 데이터 및 파라미터에 대한 특정 라이선스 메커니즘이 부족하여 정의의 범위와 초점에 대한 의문이 제기중 ✓ 다양한 해석과 잠재적 오용 가능 ✓ (사실 이게 가장 큰 이슈라고 생각합니다) – 악용 가능성 ✓ AI 기술에 대한 개방된 접근이 악의적인 도구나 비윤리적 응용 프로그램의 생성 위험을 증가시킬 수 있음 OSAID: 찬성과 반대 [1] https://www.infoq.com/news/2024/11/open-source-ai-definition/ [2] https://techcrunch.com/2024/10/28/we-finally-have-an-official-definition-for-open-source-ai/
  24. • AI: 갈수록 자본 집약적으로 변화 중 – 해마다 10배씩

    증가하는 연산 비용 / 시장 진입 비용 – 오픈 모델들마저 빅 테크들에 의해 주도되는 현실 ✓ Meta, Google, Alibaba… • 오픈소스의 대응? – 연산 자원 비용을 낮춰 자본 의존도를 줄이기 – 다수의 연산 자원을 집적하기 – 복잡한 딥 러닝 기술 스택을 단순화하기 – 기다리며 따라가기: 어차피 동일 성능까지 도달하기 위한 모델 개발 비용은 지수적으로 감소한다. • 우리의 과제 – 자본 제약 없는 동일한 AI 접근성을 어떻게 보장할 것인가? – 오픈소스 AI 모델이 시장과 부딪히며 내는 파열음을 어떻게 조정할 것인가? AI와 오픈소스
  25. AI Enterprise AI Cloud AI Open Source AI MLOps 끝!

    [email protected] https://www.facebook.com/lablupInc Lablup Inc. Backend.AI Backend.AI GitHub Backend.AI Cloud https://www.lablup.com https://www.backend.ai https://github.com/lablup/backend.ai https://cloud.backend.ai