Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM을 통한 합성 데이터 생성

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Lablup Inc. Lablup Inc.
November 03, 2025
24

LLM을 통한 합성 데이터 생성

Track 3_1615_2_Lablup Conf 2025_한승민

Avatar for Lablup Inc.

Lablup Inc.

November 03, 2025
Tweet

Transcript

  1. HSense의 동작 흐름 HSense 제품명 & 제품 설명 HS 코드

    1. 사용자가 찾고자 하는 제품과 관련된 정보를 입력 2. 사전에 구축해 둔 데이터베이스에서 사용자의 입력과 관련이 높은 n개의 문서를 검색 3. LLM Classifier가 n개의 문서 중 가장 유력한 후보를 선택
  2. HS 코드 예측이 정확할 수 없던 이유 : 1. 데이터셋의

    부족 2. 데이터셋의 편향 Vector DB 관련 문서 Retrieval 1. 특정 HS 코드가 결여됐거나, 2. 특정 HS 코드만이 치중된 데 이터 RAG 검색기 관련된 k개의 문서
  3. 문제점1) 데이터셋의 부족 HS 코드 커버율 보유 미보유 전체 11,321개

    HS 코드 중 2,804개만 존 재 커버율 : 약 24.77% → “75% 이상의 HS 코드에 대한 사례가 없음” 24.77% 75.23%
  4. HS 코드 예측이 정확할 수 없던 이유 : 1. 데이터셋의

    부족 2. 데이터셋의 편향 Vector DB 관련 문서 Retrieval 1. 특정 HS 코드가 결여됐거나, 2. 특정 HS 코드만이 치중된 데 이터 RAG 검색기 관련된 k개의 문서
  5. 문제점2) 데이터셋의 편향 데이터 편향의 문제점 - 검색 단계에서 특정

    챕터로 쏠림 현상 을 만듦 - 최종 분류기의 선택 범위를 왜곡시켜 오분류 가능성을 증가시킴 0 10 20 30 40 50 60 70 80 Most Covered Least Covered 챕터 별 커버리지 편차 (top 2 vs bottom 2) 5.56% 4.91% 72.34% 73.08%
  6. 대안책 : 데이터 증강, 그 중에서도 합성 데이터 합성 데이터의

    목표 1. 합성 데이터 생성을 통하여 부족한 데이터셋 충당 2. 챕터 간 데이터 편향 완화
  7. 합성 데이터(Synthetic Data) 개념 • 실제 데이터를 모방한, 인간이 생성하지

    않은 데이 터 • 생성형 인공지능 기술을 기반으로 한 컴퓨팅 알고 리즘을 통해 생성 장점 • 저작권 / 규제로부터 자유로움 • 구하기 어려운 데이터를 구비할 수 있음
  8. 합성 데이터 시장과 전망 출처 : 그랜드 리서치 뷰 출처

    : 한국데이터산업진흥원 글로벌 시장 국내 시장
  9. 합성 데이터 생성의 근본 목적은… 기존 관세사들이 수기로 작성했던 데이터의

    부족을 대체하려는 것 따라서, 합성 데이터는 관세사들이 실제로 입력할만한(?) 데이터여 야 한다. 입력할만한 데이터를 만들기 위해서 필요한 과정 : “실제 관세사들의 작성 방식 분석”
  10. 관세사의 수기 작성을 모방하기 위한 접근 접근1 접근2 접근 방식

    실제 관세사의 판단 과정을 정의해 둔 상태에서, 그들 의 접근과 논리 흐름을 모방하도록 하고, 유사 chapter 분류 사례를 참고하도록 지시 HS Code의 계층적 해설 데이터 (류/호/소호 해설) 구축하고, 공식 해설서의 계층 구조를 활용하여 체계적으로 데이터를 생성하는 데 중점 프롬프트 전략 관세사 판단 흐름 중심 - 단계적 논증 구조 (Few-shot 예시를 함께 주면서) 1. 제품 특성 분석 2. 관련 법조문 검토 3. HS해설서 참조 4. 비교 논리 5. 최종 결론 계층적 해설 참조 - 제공된 '류 해설', '호 해설', '소호 해설', '세부 분류' 내용을 최우 선으로 참고 두 가지 접근으로부터 생성한 합성 데이터를 관세사님에게 직접 평가받고, 더 나은 접근으로 첫 번째 접근으로 선택
  11. 관세사의 수기 작성을 모방하기 위한 분석 관세사가 수기로 작성한 제품

    분류 결정 의견서 실제 관세사들의 작성 방식을 분석 및 파악
  12. 데이터 평가 포인트와 데이터 평가서 생성 평가를 요청했던 데이터 평가서

    - 하나의 HS 코드에 대하여 4가지의 버전 생성 - 적절/부적절 각각 2개 선택하도록 요청 평가 중점 요소
  13. 합성 데이터 생성 모델 Gemma3-27b-it Qwen2.5-72B-Instruct-AWQ GPT-4.1 생성 속도 환각

    현상 Backend.AI 서빙 여부 비용 발생 빠름 X O X 빠름 보통 O X 느림~보통 X X O
  14. 생성 결과 챕터 별 커버리지 변화 (나머지 챕터 중략) 24.77%

    106.93% (나머지 챕터 중략) 합성 데이터 생성 전 합성 데이터 생성 후
  15. 합성 데이터 생성 과정 및 시간 할애 비중 가. 환각

    여부 확인 나. 관세사 수기 작성 모방 다. 합성 데이터 생성 추적 1 데이터 생성부터 활용까지의 과정
  16. 삽질기… 생성할 HS 코드와 유사한 코드를 참고하도록 지시했더니, 모델이 래퍼런스

    내용을 그대로 답변에 반영하는 환각(?) 현상이 발생함. 참고 지시를 내릴 때에도, 더 구체적이고 명확한 프롬프트 설계가 필요함을 깨달음. 개선하기 위해 추가 삽입한 프롬프트 내용