Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Datayanolja_2018_AI for gam-sung analysis

Il Sup Lee
October 19, 2018
100

Datayanolja_2018_AI for gam-sung analysis

Il Sup Lee

October 19, 2018
Tweet

Transcript

  1. Q1. 어디까지가 광화문일까? Q2. 떠오르는 상권은 어떻게 찾아 낼 수

    있을까? Location Based Service 이 발표를 통해 오늘 점심은 광화문 상권에서 떠오르는 맛집으로 찾아가보자 (점심은 행사에서 제공됩니다)
  2. [정부나 경제지표가 말하는 상권은 체감이 잘 안된다] 실제 고객들의 데이터로

    상권을 정의 [소비데이터, 유동인구데이터로는 그 목적성을 가리기가 어렵다] SNS를 분석 [SNS가 이미 정보성,광고성 글로 진실성이 떨어진다] 상대적으로 user-self 비율이 높은 이미지 기반 SNS를 도메인으로
  3. 국내 MAU 1천만 명 규모 2018년 국내 이용률 2위 (페이스북

    67.8%, 인스타그램 51.3%) 여성 유저 기준 1위 1020세대 선호도 근소차 2위 포스팅 당 평균 좋아요 수 53개, 댓글 1.7개 KT 나스미디어, ‘2018 인터넷 이용자 조사 건돌이닷컴, 2018 상반기 인스타그램 TREND 위치정보. 위치 태깅률 25% 수준 캐러셀(Carousel) 포스팅 / 댓글 구별 없음 인스타그램ID 태그
  4. 각 SNS는 그 주요 유저 집단에 따라 고유의 결을 가진다

    동시대의 모든 SNS를 관통하는 하나의 결을 시대상이라고 볼 때, 현재 우리의 라이프스타일을 잇는 코드 중 하나는 ‘#감성’ 이다.
  5. 인스타그램에서 위치정보가 부착된 포스팅을 수집하여, 상권(요식업 중심)에 관한 데이터만을 추출하고,

    이를 공간분석하여 최신 상권지도를 만들어보자 Analysis Process 데이터 수집: 인스타그램 API를 이용 위치정보가 부착되어 있으며 국내에서 업로드된 포스팅만 수집 데이터 분석: 분석목적에 적합한 데이터를 남기기 위한 모델링 포스팅에 부착된 해시태그에 확률 값을 부여하여 TF를 판단 공간분석: 인위적인 공간 구획이 아닌 앞선 단계에서의 필터링을 통해 유의미한 포스팅을 대상으로 수행 분석 목표
  6. 바른ICT 연구소, 2018.3, ICT 빅데이터의 올바른 활용과 사회적 가치 창출을

    위한 소셜 빅데이터 분석 체계 구축 및 사용자(“골목러”) 트렌드에 대한 신뢰도 높은 분석 모델 개발 프로젝트 中 기법 선택 해시태그는 단어 단위로 쓰이는 순서에 따른 문맥상의 의미 차이가 없는 편 텍스트 분류에 적합한 기법 중 Naï ve Bayes는 각 단어의 확률 값을 부여하여 TF를 판단 각 해시태그 별로 확률 값을 구해 포스팅의 분석 적합 여부를 판별할 수 있도록 함
  7. Naï ve Bayes 모델 튜닝 극히 드물게 언급된 해시태그는 단

    몇 건의 데이터만으로 확률 값을 그대로 추종하게 되며(now), Training set에서 한번도 언급되지 않은 해시태그는 확률 값을 가질 수 없다(never) 해시태그의 확률 값을 모두 곱하기 때문에 태그가 늘어날 수록 그 확률 값이 극히 작은 값이 되어 0이나 다름없는 값으로 여겨지는 경우가 발생한다(underflow)  N번 이상 사용된 해시태그만 확률 값을 갖도록 하고, 그 이하로 언급될 경우 임의의 출현빈도를 부여하여 그에 따른 확률 값을 가지도록 한다 (laplace)  로그변환을 통해 0-1 사이의 확률 값을 0부터 마이너스 무한대까지의 값으로 바꾸어 비교한다 (logarithm transformation)
  8. 결과값 baseline #인생커리 #광화문맛집 #데놀커리 #까스커리 Laplace smooth class1 Laplace

    - 0 - 0.551 0 0.950672646 0 0 class0 Laplace - 0 - 0.449 0 0.049327354 0 0 class1 Laplace - 1 0.000000000265 0.551 0.00070922 0.946666667 0.00070922 0.00070922 class0 Laplace - 1 0.000000000004 0.449 0.00070922 0.053333333 0.00070922 0.00070922 class1 Laplace - 2 0.000000001721 0.551 0.001325381 0.942731278 0.001325381 0.001325381 class0 Laplace - 2 0.000000000029 0.449 0.001325381 0.057268722 0.001325381 0.001325381 Laplace smooth + Log Tran formation class1 Laplace - 0 - 0.2433 X - 0.0506 X X class0 Laplace - 0 - 1.5325 X - 3.0093 X X class1 Laplace - 1 - 22.0522 - 0.2433 - 7.2513 - 0.0548 - 7.2513 - 7.2513 class0 Laplace - 1 - 26.2177 - 1.5325 - 7.2513 - 2.9312 - 7.2513 - 7.2513 class1 Laplace - 2 - 20.1805 - 0.2433 - 6.6261 - 0.0590 - 6.6261 - 6.6261 class0 Laplace - 2 - 24.2706 - 1.5325 - 6.6261 - 2.8600 - 6.6261 - 6.6261 Naï ve Bayes 모델 튜닝 예시: #인생커리 #광화문맛집 #데놀커리 #까스커리
  9. 결과 분석 actual baseline 55.1% predicted Type= 0 Type= 1

    row total accuracy 85.4% 0 2,929 212 3,142 precision 81.2% 1 1,092 4,713 5,805 recall 95.7% column total 4,021 4,925 8,946 f 87.8% actual predicted Type= 0 Type= 1 row total accuracy 85.6% 0 2,937 203 3,139 precision 81.3% 1 1,084 4,723 5,807 recall 95.9% column total 4,021 4,925 8,946 f 88.0% actual predicted Type= 0 Type= 1 row total accuracy 85.5% 0 2,915 193 3,107 precision 81.0% 1 1,107 4,733 5,839 recall 96.1% column total 4,021 4,925 8,946 f 87.9% actual predicted Type= 0 Type= 1 row total accuracy 85.4% 0 2,887 175 3,063 precision 80.7% 1 1,134 4,750 5,884 recall 96.4% column total 4,021 4,925 8,946 f 87.9% actual predicted Type= 0 Type= 1 row total accuracy 85.3% 0 2,863 161 3,023 precision 80.4% 1 1,158 4,765 5,923 recall 96.7% column total 4,021 4,925 8,946 f 87.8% - Baseline에 대비하여 F-measure를 향상시킴에는 튜닝만으로는 한계가 존재 - 정밀도(Precision)와 재현율(Recall)의 trade-off를 감안하지 않으면, 모델이 일그러질 수 있음 - 두 지표 중에 무엇에 더 큰 가중치를 두게 될지는 결국 분석 목적에 맞추어 판단 - 안전이나 연금 운용 등의 보수적 행위에는 정밀도를, 일반적인 마케팅 등 공격적인 행위에는 재현율이 더 중요한 지표가 될 수 있다고 보여짐
  10. 현재 진행중 - 해시태그를 더더욱 숨기는 징후 (첫줄에 이어 두번째

    줄까지 뛰는 현상 발생) - 페이스북에서 흥행하였던 카드뉴스 (캐러셀) 형태의 포스팅 급증 - 개인정보가 최소화 되어 있는점을 악용한 상업적 포스팅 증가