Upgrade to Pro — share decks privately, control downloads, hide ads and more …

주요 Big Data 적용 사례

주요 Big Data 적용 사례

주요 Big Data 적용 사례 - 한국 고객 중심으로, 정태일 이사

MapR Technologies

September 07, 2018
Tweet

More Decks by MapR Technologies

Other Decks in Technology

Transcript

  1. © 2017 MapR Technologies MapR Confidential 2 순 서 •

    DW 경량화 (Archive / Offload) 사례 • 로그 처리 (고객 접촉 로그, 보안 로그 등) 사례 • IoT 사례 • IoT 및 Machine Learning 시연
  2. © 2017 MapR Technologies MapR Confidential 4 ) , 7

    ) 27 % • A • % DE DW (Data Warehouse) 시스템 현황 (:: 7
  3. © 2017 MapR Technologies MapR Confidential 5 늘어나는 EDW 용량

    증설에 대한 대안 D . : –   –          LE 1 – 2 – 3
  4. © 2017 MapR Technologies MapR Confidential 6 MapR 논리적 DW

    평가 3위 Source: Gartner Critical Capabilities for Data Warehouse and Data Management Solutions for Analytics Published: 13 July 2016
  5. © 2017 MapR Technologies MapR Confidential 7 MapR을 이용한 DW

    경량화 (1): 완전 경량화 Data Warehouses Data Exploration Business Intelligence Reporting Analytics Data Marts MapR-XD ETL Interactive Query Engine (Drill) Continuous Update NFS POSIX Client OLTP, ERP, CRM Documents CSV Text Files Social Media Clickstream NFS Direct Access Kafka API Real-time events Sqoop Batch ingest Flume Log data POSIX Cilent MapR-ES Converged Data Platform MapR-DB
  6. © 2017 MapR Technologies MapR Confidential 8 MapR을 이용한 DW

    경량화 (2): 부분 경량화 Data Warehouses Data Exploration Business Intelligence Reporting Analytics Data Marts MapR-XD ETL Interactive Query Engine (Drill) Reload / Offload NFS Direct Access Kafka Sqoop POSIX Client OLTP, ERP, CRM Documents CSV Text Files Social Media Clickstream Kafka API Real-time events Sqoop Batch ingest Flume Log data MapR-ES Converged Data Platform MapR-DB
  7. © 2017 MapR Technologies MapR Confidential 9 ) ) (

    Business Intelligence Reporting Data Exploration Analytics ETL NFS A통신사 Vertica 경량화 사례
  8. © 2017 MapR Technologies MapR Confidential 10 B은행 SAP IQ

    경량화 사례 Hot Data (SAP IQ) Warm Data Cold Data (MapR)  Warm Data 영역에도 MapR Data Platform을 활용하여 Auto-Tiering 구성 가능
  9. © 2017 MapR Technologies MapR Confidential 11 C은행 고객 접촉

    로그 통합 사례 • VoC (Voice of Customer) 데이터 수집 후 MapR Data Platform에 저장 • MapR Data Platform 기반으로 고객 불만 유형 분석 및 Machine Learning을 통한 대응 방안 사전 제공 • STT (Speech-To-Text)를 이용한 고객 상담 음성 데이터 텍스트화 • 텍스트 데이터 벡터화 후 Machine Learning에 활용 • Apache Flume을 이용한 웹/앱 (인터넷 뱅킹, 스마트 뱅킹 등) 로그 수집 저장 후 상호 연관 분석 등
  10. © 2017 MapR Technologies MapR Confidential 12 대상 데이터 데이터

    수집 룰 기반 적출기준 모델 탐지가능 탐지불가능 정탐 오탐 미탐 수동 룰 생성 기존 생성한 룰 조합 내 패턴과 일치 이상거래의 확률 기존 생성한 룰 조합 내 패턴과 일치 정상거래의 확률 기존 생성한 룰 조합 외 신규 패턴 탐지불가 정탐 / 오탐 : 기존 룰로서 대응 가능성 있음 미탐 : 신규 이상 거래 패턴에 대하여 대응 블가 수집인자가 많을수록 대응불가 기존 시스템 국내 금융사 빅데이타 기반 거래 감시 시스템 사례 (1/2)
  11. © 2017 MapR Technologies MapR Confidential 13 대상 데이터 데이터

    수집 AI 기반 적출기준 모델 탐지가능 정탐 오탐 미탐 기계학습을 통한 자동 적출 기준 모델 고도화 사전 학습된 정상 패턴과 다름 이상거래의 확률 사전 학습된 정상 패턴과 일치 정상거래의 확률 사전학습된 패턴 외 신규 패턴 탐지가능 정탐 / 오탐 : 사전학습 패턴으로서 대응 가능성 있음 미탐 : 신규 이상 거래 패턴에 대하여 대응 가능 수집인자가 많을수록 자동화된 적출기준 요소 증가로 탐지정확도 높아짐 차세대 시스템 탐지가능 AI (Machine Learning / Deep Learning) 국내 금융사 빅데이타 기반 거래 감시 시스템 사례 (2/2)
  12. © 2017 MapR Technologies MapR Confidential 15 SK Infosec 실시간

    보안 관제 • 실시간 보안 관제 및 장기간의 보안 관련 분석을 위해 MapR Data Platform 및 Apache Flume, Kafka, Storm 및 Elasticsearch 활용 • 여러 유형의 보안 장비 및 침입탐지시스템 또는 로그로부터 침입 시도 파악 • 다양한 원천 소스 이벤트 간의 침입탐지 행위에 연관된 상관관계를 실시간으로 파악하기 위하여 대용량의 실시간 이벤트를 빠르고 효율적으로 처리
  13. © 2017 MapR Technologies MapR Confidential 16 통신회사 실시간 빅데이터

    (예시) • CDR – Call Detail Record: 통화 로그 – Charging Data Record: 과금 데이터 • 네트워크 (장비) 데이터 – Alarm / Fault / Status 데이터 • 서버 상태 정보 혹은 로그 • 모바일 인터넷 • 스마트 디바이스 • M2M 데이터 Call Detail Records Network Data Billing Data Mobile Data Text Messages Clickstream
  14. © 2017 MapR Technologies MapR Confidential 17 통신회사 실시간 빅데이터

    분석 사례 네트워크 분석 및 관리 서비스 향상 및 비용 절감 실시간 타겟 마켓팅 글로벌 통합 캠페인 분석 고객 분석 광고 최적화 및 모바일 디바이스 로그 분석 • 새로운 네트워크 IP 및 클릭 스트림 데이터를 수집 • DW의 작업 부하 감소 (경량화) 및 SLA 유지 관리 • 네트워크 사용 및 고객 환경 설정에 대한 새로운 통찰력 확보 • 사용자 상호 작용 추적 (건너 뛰기, 전달, 채널 변경) • 밀리 초 내에 수백만 개의 광고 삽입을 병렬로 수행 • 모바일 장치에 대한 고객 지원 최적화 • 광고 지출 및 실적을 위한 새로운 실시간 대시보드 • 글로벌 통찰력 시간 단축: 수시간에서 수분 • 재해 복구 기능 추가
  15. © 2017 MapR Technologies MapR Confidential 18 제조업체 예지 정비

    적용 사례 부산공장 Busan Topic Sensor Data TCP/IP Ingestion Service Elastic Data Persistence Converged Data Platform 수원사업장 Global Replication (Busan to Suwon) About 500 Km Producers Listeners Consumers Sensor Data TCP/IP Producers Suwon Topic Timestamp Message Type Monitoring MapR Streams Monitoring Sensor data
  16. © 2017 MapR Technologies MapR Confidential 19 발전소 IoT기반의 빅데이터

    적용 사례 MapR-XD (File System) MapR-DB (NoSQL Database) MapR-ES (Messaging Queue) MapR Spark-Streaming MapR Drill (SQL on Hadoop) Tupics Storage Tupics Engine SciDB Wrapper TensorFlow, R 배치 입력 실시간 입력 EDS OPC Connector DCS 실시간 입력 실시간 입력 목적 • 발전소 운영 장비 장애들의 근본원인 규명을 통한 장애 횟수 단축 • 장애 발생 전 이상징후 분석을 통한 사전 장애 예방 대상(1차) • 초당 27만개의 발전소 센서 데이터 실시간 수집 및 분석 (1대 발전소 기준) 내용 • 국내 최초로 빅데이터 플랫폼 기반으로 센서 데이터에 대한 실시간 수집 진행 • 실시간 센서 데이터를 기반으로 한 빅데이터 분석 진행
  17. © 2017 MapR Technologies MapR Confidential 21 Why MapR for

    IoT? - All Data, One Platform, Every Cloud ON-PREMISE, MULTI-CLOUD, EDGE IOT & EDGE MapR Data Platform 고가용성 실시간 통합 보안 Multi-tenancy 재해복구 Global Namespace 기존 Enterprise Apps Batch 및 실시간 분석 Apps 인텔리젼트 Apps 이벤트 스트림 분석 및 머신러닝 엔진 운영 DBMS 클라우드 규모의 데이터 저장
  18. © 2017 MapR Technologies MapR Confidential 22 /f1 저장 공간의

    효율화 및 Spark 외의 다양한 Job 지원 • 분석을 위한 별도의 클러스터가 필요하지 않으므로 데이터 중복이 없음 • 단일 플랫폼 내에서 데이터 분석 가능 (데이터 이동이 불필요) Why MapR for ML & AI? - MapR Open Approach to Data Science
  19. © 2017 MapR Technologies MapR Confidential 23 시연 개요 •

    : 데이터를 수집하고 일반적인 임계값 모니터로는 감지할 수 없는 비정상적인 동작을 감지 Ø 이 데모에서는 서버 장비에서 발생하는 , : 등의 자원 사용 현황 데이터를 수집 Ø 일반적인 임계값 모니터로는 감지할 수 없는 응용 프로그램의 비정상적인 동작을 감지 • 데이터 손실 없이 : 데이터 축적 • 실시간 분석 요구 대응 , : 분석을 위해 데이터 이동 불필요 • 낮은 로 확장 • , 에서 취득한 모든 센서 데이터를 ) , : 에 축적 • 을 활용하여 분석하고 ( 를 이용하여 실시간으로 시각화       
  20. © 2017 MapR Technologies MapR Confidential 24 아키텍처 및 솔루션

    구성 Kafka MapR-XD 실시간 데이터 (IoT 센서 데이터 등) 대화형 쿼리 실시간 대시 보드 ) ( 처리 큐에서 데이터 수집 및 처리 클러스터 모델 이상치 여부 판단 로 결과 전송 머신 러닝 라이브러리 클러스터링 모델 실시간 데이터 처리 수집 데이터 http 프로토콜 MapR-ES
  21. © 2017 MapR Technologies MapR Confidential 25 적용 모델 •

    자원 사용 패턴에서 다음의 4 가지 상태에 클러스터 분석 (K-Means)한 결과에서 실시간으로 실행 중인 응용 프로그램을 판별 (Kibana에서 실시간으로 클러스터 상태를 Dashboard에 표시) – 유휴 상태 (IDLE) – 처리 1의 상태 (LOAD) CPU(Low) / DISK(High) / NETWORK(High) – 처리 2의 상태 (MapReduce) CPU(Mid) / DISK(High) / NETWORK(High) – 처리 3의 상태 (SQL) CPU(High) / DISK(High) / NETWORK(Low) • 학습한 결과와 다른 리소스 사용 패턴을 감지하면 비정상 상태로 판정 – 비정상 상태 (ABNORMAL)
  22. © 2017 MapR Technologies MapR Confidential 26 클러스터 분석 •

    클러스터 분석은 다른 성질의 것이 섞여있는 집단 (대상) 중에서 서로 닮은 것을 모은 그룹 (클러스터)을 만들고 대상을 분류하려는 방법을 총칭 클러스터  (Idle) 클러스터 2 (Load) 클러스터 3 (SQL) 클러스터 4 (MapReduce) 데이터의 특징을 거리로 변환하고 기준이 되는 위치 (중심)에서 거리의 원근으로 그룹화
  23. © 2017 MapR Technologies MapR Confidential 27 Kibana Dashboard 화면

    (예시) 발생한 작업을 자원 사용 패턴에서 식별 (Load / MapReduce / SQL 및 ABNORMAL (이상치)를 감지)
  24. © 2017 MapR Technologies MapR Confidential 28 시연 환경 및

    절차 (1) 0. MapR Data Platform cluster를 구성합니다. (실제 운영 환경에서는 5 노드 이상 권고하나, 시연에서는 편의상 3노드로 구성하였음) (1) node1 (2) node2 (3) node3 1. MapR Installer에 접속한 후, MCS (MapR Control System)에 로그인하여 MapR이 정상 동작함을 확인합니다. 2. MCS에서 Drill이 정상 동작함을 확인합니다.
  25. © 2017 MapR Technologies MapR Confidential 29 시연 환경 및

    절차 (2) 3. StreamSets을 기동합니다. 4. 다음 3가지 StreamSets Job이 정상 동작함을 확인합니다. (1) stage01_rest (수집): REST API를 이용하여 데이터 수집 (2) stage02 (저장 및 처리): Machine Learning 결과를 바탕으로 Scoring 수행 (3) stage03 (시각화): 모니터링을 위해 결과를 Kibana Dashboard로 전송하여 시각화 5. 데이터 생성 프로세스를 기동한 후 시연이 끝날 때까지 유지합니다.
  26. © 2017 MapR Technologies MapR Confidential 30 시연 환경 및

    절차 (3) 6. Kibana Dashboard 화면에 접속합니다. 이후, 시연이 끝날 때까지 클러스터링 모델이 정상적으로 적용되는지 확인합니다. 7. 자원 상태별 JOB을 생성합니다. 자원 상태별 JOB을 생성하는 방법은 다음 스크립트를 순차적으로 반복합니다. (본 시연에서는 100회 반복하도록 설정함) (1) JOB01_LOAD.sh (2) JOB02_MAPREDUCE.sh (3) JOB03_SQLQUERY.sh (4) JOB04_ANORMAL_DISK_ACCESS.sh
  27. © 2017 MapR Technologies MapR Confidential 31 시연 의미 및

    활용 방안 • 시연 특성 상 IoT 데이터는 서버 데이터 (CPU, Disk, N/W IO)를 활용 Ø 다른 형태의 IoT 데이터에도 적용 가능 (통신, 정유, 제조 등) • 알고리즘 혹은 Machine Learning 관련 적용 모델은 본 시연에서 활용한 K-Means 대신 다른 형태의 모델도 적용 가능 Ø 특히, 고객사에서 직접 연구개발한 모델 적용이 가능