Upgrade to Pro — share decks privately, control downloads, hide ads and more …

생성형 AI 시대의 데이터 사이언스 | 김진영

생성형 AI 시대의 데이터 사이언스 | 김진영

김진영
- 현) 네이버 Head of Data Science & Director of US R&D
- 전) Snap Lead Data Scientist
- 전) Microsoft Senior Applied Scientist

현재 Naver Search US의 디렉터를 맡고 있는 데이터 사이언티스트 겸 에반젤리스트입니다. 네이버의 Data & Analytics(DnA) 조직의 리더로서 최신 분석기술 및 실험 플랫폼을 구축하고 있습니다. (저서: 헬로 데이터 과학)

데이터리안

May 14, 2024
Tweet

More Decks by 데이터리안

Other Decks in Technology

Transcript

  1. 김진영 현) 네이버 서치 Head of Data Science 저서) ʻ헬로

    데이터 과학’ 생성형 AI 시대의 데이터 사이언스 1부 강연
  2. 연사 소개 검색 랭킹 & 품질 평가 관련 대학원 연구

    MS & Snap에서 검색 및 추천 관련 업무 네이버에서 Data&Analytics 팀 리드 + 논문 / 저서 / 팟캐스트 등등 홈페이지: https://brunch.co.kr/@lifidea
  3. Data&Analytics팀 소개 네이버의 검색 및 추천시스템의 품질 평가 및 사용자

    경험 개선을 위한 플랫폼 / 지표 / 분석까지 담당 (채용 문의 환영입니다!) 팀블로그: https://medium.com/naver-dna-tech-blog
  4. 목차 1. 생성형 AI, 어디까지 써봤니? 2. 생성형 AI 분석

    활용 사례: NBA 선수가 되기 위한 조건은? 3. 생성형 AI와 함께하는 분석의 미래 발표 내용은 발표자의 사견임을 밝힙니다.
  5. 놀라움: 못하는게 없네? •GPT한테 다 시켜보자 • 데이터 가공 및

    조인 • 가설 수립 • 모델링 • 시각화 • … 참고: https://brunch.co.kr/@lifidea/59
  6. 실망: 제대로 하는것은 없네… •GPT한테 다 시켜보자 • 데이터 가공

    및 조인 • 가설 수립 • 모델링 • 시각화 • … •실망 • 한번에 제대로 하는 것은 별로 없음 • 정확히 원하는 결과를 얻기 어려움 • 기억상실증 / 튕겨나옴 / … 하지만, 범용 AI에 단순히 코딩 기능을 붙인 결과물이 이정도라면?
  7. 깨달음: 이런 변화의 본질은? • 기계가 자연어를 이해하고 말하게 되었다

    • 인간이 기계어를 (Python / SQL) 배울 필요가 없어졌다 • 문제해결에는 필요에 따라 다양한 도구를 활용할 수 있다 (코딩/검색) • 언어와 함께 추론 및 문제해결 능력도 생겼다 • 논리나 문제 해결 방법도 결국 언어로 배우는 것이니… • 문제 해결력은 학습 데이터가 충분한 도메인에 국한된다 • 향후 몇년 안에 데이터 분석의 개념이 바뀐다 • 데이터 분석에 특화된 모델 / 플랫폼이 등장할 것이다 • 범용 솔루션을 개별 기업이 파인튜닝해 사용할 것이다
  8. ChatGPT+ADA(*)를 활용한 분석 & 집필 노력만 하면 누구나 NBA 선수가

    되느냐? 결론: 불가능은 아니지만 매우 어렵다 * ADA: Advanced Data Analytics (= Code Interpreter)
  9. ChatGPT 활용의 교훈 잘 되는 부분 • 단순한 분석 및

    통계 작업을 상당히 잘 수행한다 • 자연어 이해를 바탕으로 데이터 클리닝 및 인코딩 수행 • 단순 코딩을 맡기고 분석 업무에 집중하게 도와준다 아쉬운 부분 • ChatGPT가 도출한 가설 및 결론은 대부분 상식적인 수준 • ChatGPT가 작성한 코드를 (SQL 등) 꼼꼼히 검수해야 함 • 세션 제한등을 고려해서 중간 결과를 저장해 두어야
  10. AI 잘쓰기: 프롬프트 엔지니어링 커뮤니케이션 • 분석 요구사항을 명확하게 표현하기

    • 결과물에 대한 정확한 피드백을 주기 리더십 / 조직 관리 • 업무 성과를 높일수 있는 조직 구조 짜기 • 개인과 팀의 성과를 평가하고 피드백을 주기 결국 다시 소프트 스킬인가?
  11. 향후 3년간의 LLM 기술 진보, 활용 범위, 그 영향력을 예측한다면…

    2024 2025 2026 (and beyond) LLMs Next-gen Base LLMs (e.g. GPT5) LLMs fine-tuned for generic DS tasks LLMs fine-tuned for industry / organization Ecosystem AI-powered DS workbench Autonomous DS agents Agents for cutting edge research Adoption Startups Researchers Large Organizations Most professionals Everyone Impact on Industry Pre-emptive Hiring Freeze Shift in Labor Market Stabilized to post-AI defaults 출처: 저의 뇌피셜입니다…
  12. 두 가지 발전 방향: Copilot vs. Agent Copilot은 인간을 보조

    / Agent는 자율적으로 과업 수행 Copilot과 Agent가 결합된 형태도 발전 Copilot Agent 분석 전문가와 상호작용하며 원하는 결과물을 만들어간다. (헙업을 위한 UX /피드백 기반의 fine-tuning등이 중요) 전문가의 지시를 받아 독립적인 분석 과업을 수행한다. (넓은 업무 수행 범위 및 자율적인 문제 해결이 중요)
  13. AI가 분석가 개인과 조직에 미치는 영향은? 개인 관점 • 향후

    AI는 전문가의 분석 역량을 향상시키고, 비전문가의 분석 업무에 대한 장벽을 낮출 것이다 • 일반적이고 반복적인 업무는 AI 에이전트에 의해 대체될 것이다 • 전문가는 새로운 문제와 방법론을 개발하고, AI의 업무 수행을 감독하는 역할을 맡을 것이다 조직 관점 • 향후 AI는 단위 인력당 조직의 분석 역량을 향상시킬 것이다 (전문가와 비전문가 포함) • 기술 스택은 인간과 AI 에이전트를 염두에 두고 재설계되어야 한다 • 개별 분석팀의 크기는 줄고, 다른 조직에 embed된 형태로 근무할 것으로 전망된다
  14. 전망: 이미 기계 번역이 초벌 번역 업무를 대체하고 있는것처럼, 요구

    사항을 SQL로 번역하는 수준의 업무는 점차 사라질 것이다. Machine 번역가로서의 분석가 (aka SQL Monkey)
  15. 그렇다면 분석 업무의 본질은 어떻게 바뀔 것인가? 도메인 지식 통계학

    프로그래밍 도메인 지식 통계학 프로그래밍 소프트 스킬 Data Science 스킬 다이어그램의 진화 (좌: 2020 / 우: 2030)
  16. 그렇다면 분석 업무의 본질은 어떻게 바뀔 것인가? • 기술적 역량의

    중요성은 줄어들 것이다 • 코딩은 GPT가 / DS 도메인 지식은 Agent가 담당 • 전문 분석 Agent를 사고 파는 시장이 생길 수도 • 더 많은 분석가가 PM / TL의 역할을 담당? • 다양한 AI를 적재적소에 배치하여 문제를 해결 • AI의 업무 결과를 평가하고 가이드할 수 있어야 • 대체될 수 없는 전문가의 영역도 분명 있을것 • 트레이닝 데이터가 없거나 부족한 리서치의 영역 • 기밀 등의 이유로 내부에서 이루어져야 하는 업무 (예: 알고리즘 트레이딩) 도메인 지식 통계학 프로그래밍 소프트 스킬
  17. 데이터 과학의 본질은 언제나 문제해결이었다… 인간 수준의 분석 Agent가 나와도

    인간이 해결해야 할 문제는 많다 (어떤 문제를 풀것인가? 데이터는 어떻게 수집할 것인가? … )
  18. AI가 분석 산업과 잡마켓에 미치는 영향은? 개인 관점 • 향후

    AI는 전문가의 분석 역량을 향상시키고, 비전문가의 분석 업무에 대한 장벽을 낮출 것이다 • 일반적이고 반복적인 업무는 AI 에이전트에 의해 대체될 것이다 • 전문가는 새로운 문제와 방법론을 개발하고, AI의 업무 수행을 감독하는 역할을 맡을 것이다 조직 관점 • 향후 AI는 단위 인력당 조직의 분석 역량을 향상시킬 것이다 (전문가와 비전문가 포함) • 개별 분석팀의 크기는 줄고, 다른 조직에 embed된 형태로 근무할 것으로 전망된다 • 기술 스택은 인간과 AI 에이전트를 염두에 두고 재설계되어야 한다
  19. 예측: 조직의 상황에 따라 늘어난 분석 역량을 활용하는 방법이 다를

    것이다 ROI 관점에서 분석 니즈가 크지 않은 조직에서는 분석 조직의 규모가 줄어들 수 있다 대부분의 조직은 늘어난 분석 역량을 잠재적인 문제 해결에 활용할 것으로 전망된다
  20. 전망: 모든 기술 스택은 (플랫폼과 데이터) 인간뿐 아니라 AI 에이전트가

    활용하는 것을 염두에 두고 진화해야 한다. Machine AI 에이전트가 수행하는 AB 테스트를 플랫폼은 어떻게 지원해야 할까? AI 에이전트의 활용을 위한 데이터 카탈로그는 어떻게 디자인되어야 할까? 추측: 높은 신뢰성과 사용성을 갖도록 설계되고 문서화된 플랫폼과 데이터는 인간과 AI에게 모두 유용할 것이다.
  21. DS 커리어를 어떻게 준비해야 할 것인가? •분석가로서 기술적인 이해는 여전히

    중요 • AI의 업무 결과를 평가하고 가이드할 수 있는 역량이 필요 • 새로 등장하는 AI 트랜드 및 도구도 익히되 락인을 주의하자 •소프트 스킬과 도메인 지식이 핵심 역량 • 범용 분석 및 코딩 스킬은 아웃소싱하는 추세가 강화될 것 • 특정 도메인의 문제해결 과정의 전반을 폭넓게 경험하자 •자동화를 위한 플랫폼과 데이터는 중요 • 인간과 에이전트가 업무에 활용할 수 있는 데이터와 플랫폼은?