Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM을 통한 합성 데이터 생성

Avatar for Lablup Inc. Lablup Inc. PRO
November 03, 2025
0

LLM을 통한 합성 데이터 생성

Track 3_1615_2_Lablup Conf 2025_한승민

Avatar for Lablup Inc.

Lablup Inc. PRO

November 03, 2025
Tweet

Transcript

  1. HSense의 동작 흐름 HSense 제품명 & 제품 설명 HS 코드

    1. 사용자가 찾고자 하는 제품과 관련된 정보를 입력 2. 사전에 구축해 둔 데이터베이스에서 사용자의 입력과 관련이 높은 n개의 문서를 검색 3. LLM Classifier가 n개의 문서 중 가장 유력한 후보를 선택
  2. HS 코드 예측이 정확할 수 없던 이유 : 1. 데이터셋의

    부족 2. 데이터셋의 편향 Vector DB 관련 문서 Retrieval 1. 특정 HS 코드가 결여됐거나, 2. 특정 HS 코드만이 치중된 데 이터 RAG 검색기 관련된 k개의 문서
  3. 문제점1) 데이터셋의 부족 HS 코드 커버율 보유 미보유 전체 11,321개

    HS 코드 중 2,804개만 존 재 커버율 : 약 24.77% → “75% 이상의 HS 코드에 대한 사례가 없음” 24.77% 75.23%
  4. HS 코드 예측이 정확할 수 없던 이유 : 1. 데이터셋의

    부족 2. 데이터셋의 편향 Vector DB 관련 문서 Retrieval 1. 특정 HS 코드가 결여됐거나, 2. 특정 HS 코드만이 치중된 데 이터 RAG 검색기 관련된 k개의 문서
  5. 문제점2) 데이터셋의 편향 데이터 편향의 문제점 - 검색 단계에서 특정

    챕터로 쏠림 현상 을 만듦 - 최종 분류기의 선택 범위를 왜곡시켜 오분류 가능성을 증가시킴 0 10 20 30 40 50 60 70 80 Most Covered Least Covered 챕터 별 커버리지 편차 (top 2 vs bottom 2) 5.56% 4.91% 72.34% 73.08%
  6. 대안책 : 데이터 증강, 그 중에서도 합성 데이터 합성 데이터의

    목표 1. 합성 데이터 생성을 통하여 부족한 데이터셋 충당 2. 챕터 간 데이터 편향 완화
  7. 합성 데이터(Synthetic Data) 개념 • 실제 데이터를 모방한, 인간이 생성하지

    않은 데이 터 • 생성형 인공지능 기술을 기반으로 한 컴퓨팅 알고 리즘을 통해 생성 장점 • 저작권 / 규제로부터 자유로움 • 구하기 어려운 데이터를 구비할 수 있음
  8. 합성 데이터 시장과 전망 출처 : 그랜드 리서치 뷰 출처

    : 한국데이터산업진흥원 글로벌 시장 국내 시장
  9. 합성 데이터 생성의 근본 목적은… 기존 관세사들이 수기로 작성했던 데이터의

    부족을 대체하려는 것 따라서, 합성 데이터는 관세사들이 실제로 입력할만한(?) 데이터여 야 한다. 입력할만한 데이터를 만들기 위해서 필요한 과정 : “실제 관세사들의 작성 방식 분석”
  10. 관세사의 수기 작성을 모방하기 위한 접근 접근1 접근2 접근 방식

    실제 관세사의 판단 과정을 정의해 둔 상태에서, 그들 의 접근과 논리 흐름을 모방하도록 하고, 유사 chapter 분류 사례를 참고하도록 지시 HS Code의 계층적 해설 데이터 (류/호/소호 해설) 구축하고, 공식 해설서의 계층 구조를 활용하여 체계적으로 데이터를 생성하는 데 중점 프롬프트 전략 관세사 판단 흐름 중심 - 단계적 논증 구조 (Few-shot 예시를 함께 주면서) 1. 제품 특성 분석 2. 관련 법조문 검토 3. HS해설서 참조 4. 비교 논리 5. 최종 결론 계층적 해설 참조 - 제공된 '류 해설', '호 해설', '소호 해설', '세부 분류' 내용을 최우 선으로 참고 두 가지 접근으로부터 생성한 합성 데이터를 관세사님에게 직접 평가받고, 더 나은 접근으로 첫 번째 접근으로 선택
  11. 관세사의 수기 작성을 모방하기 위한 분석 관세사가 수기로 작성한 제품

    분류 결정 의견서 실제 관세사들의 작성 방식을 분석 및 파악
  12. 데이터 평가 포인트와 데이터 평가서 생성 평가를 요청했던 데이터 평가서

    - 하나의 HS 코드에 대하여 4가지의 버전 생성 - 적절/부적절 각각 2개 선택하도록 요청 평가 중점 요소
  13. 합성 데이터 생성 모델 Gemma3-27b-it Qwen2.5-72B-Instruct-AWQ GPT-4.1 생성 속도 환각

    현상 Backend.AI 서빙 여부 비용 발생 빠름 X O X 빠름 보통 O X 느림~보통 X X O
  14. 생성 결과 챕터 별 커버리지 변화 (나머지 챕터 중략) 24.77%

    106.93% (나머지 챕터 중략) 합성 데이터 생성 전 합성 데이터 생성 후
  15. 합성 데이터 생성 과정 및 시간 할애 비중 가. 환각

    여부 확인 나. 관세사 수기 작성 모방 다. 합성 데이터 생성 추적 1 데이터 생성부터 활용까지의 과정
  16. 삽질기… 생성할 HS 코드와 유사한 코드를 참고하도록 지시했더니, 모델이 래퍼런스

    내용을 그대로 답변에 반영하는 환각(?) 현상이 발생함. 참고 지시를 내릴 때에도, 더 구체적이고 명확한 프롬프트 설계가 필요함을 깨달음. 개선하기 위해 추가 삽입한 프롬프트 내용