Datayanolja_2018_AI for gam-sung analysis

인스타그램 트렌드 탐험기 갬성분석을 위한 인공지능 #데이터야놀자 #2018 #이일섭

#도시공학 #빅데이터분석 #카드사 #금융데이터 #LBS #POI #GIS #MAP

Location Based Service POI (Points of interest) 시계방향 포잉, 식신,
망고플레이트 서비스 사진

Q1. 어디까지가 광화문일까? Location Based Service

Q1. 어디까지가 광화문일까? Q2. 떠오르는 상권은 어떻게 찾아 낼 수
있을까? Location Based Service 이 발표를 통해 오늘 점심은 광화문 상권에서 떠오르는 맛집으로 찾아가보자 (점심은 행사에서 제공됩니다)

광화문 상권 지도를 그려보자 We are here!

어디까지가 광화문 일까?

국가에서 인정한 주요 상권 중소기업벤처부, 국가지정 주요상권, 2017.9

[정부나 경제지표가 말하는 상권은 체감이 잘 안된다] 실제 고객들의 데이터로
상권을 정의 [소비데이터, 유동인구데이터로는 그 목적성을 가리기가 어렵다] SNS를 분석 [SNS가 이미 정보성,광고성 글로 진실성이 떨어진다] 상대적으로 user-self 비율이 높은 이미지 기반 SNS를 도메인으로

국내 MAU 1천만 명 규모 2018년 국내 이용률 2위 (페이스북
67.8%, 인스타그램 51.3%) 여성 유저 기준 1위 1020세대 선호도 근소차 2위 포스팅 당 평균 좋아요 수 53개, 댓글 1.7개 KT 나스미디어, ‘2018 인터넷 이용자 조사 건돌이닷컴, 2018 상반기 인스타그램 TREND 위치정보. 위치 태깅률 25% 수준 캐러셀(Carousel) 포스팅 / 댓글 구별 없음 인스타그램ID 태그

각 SNS는 그 주요 유저 집단에 따라 고유의 결을 가진다
동시대의 모든 SNS를 관통하는 하나의 결을 시대상이라고 볼 때, 현재 우리의 라이프스타일을 잇는 코드 중 하나는 ‘#감성’ 이다.

인스타그램 감성이란?

감성 vs 갬성 인스타그램에서 감성이라는 것이 폭발하여 점을 하나 더
찍은 것을 갬성이라고 한다

분석

인스타그램에서 위치정보가 부착된 포스팅을 수집하여, 상권(요식업 중심)에 관한 데이터만을 추출하고,
이를 공간분석하여 최신 상권지도를 만들어보자 Analysis Process 데이터 수집: 인스타그램 API를 이용 위치정보가 부착되어 있으며 국내에서 업로드된 포스팅만 수집 데이터 분석: 분석목적에 적합한 데이터를 남기기 위한 모델링 포스팅에 부착된 해시태그에 확률 값을 부여하여 TF를 판단 공간분석: 인위적인 공간 구획이 아닌 앞선 단계에서의 필터링을 통해 유의미한 포스팅을 대상으로 수행 분석 목표

바른ICT 연구소, 2018.3, ICT 빅데이터의 올바른 활용과 사회적 가치 창출을
위한 소셜 빅데이터 분석 체계 구축 및 사용자(“골목러”) 트렌드에 대한 신뢰도 높은 분석 모델 개발 프로젝트 中 기법 선택 해시태그는 단어 단위로 쓰이는 순서에 따른 문맥상의 의미 차이가 없는 편 텍스트 분류에 적합한 기법 중 Naï ve Bayes는 각 단어의 확률 값을 부여하여 TF를 판단 각 해시태그 별로 확률 값을 구해 포스팅의 분석 적합 여부를 판별할 수 있도록 함

모델링을 위한 데이터 전처리

#갬성 case1. #광화문 #스타벅스 #광화문카페 #바닐라라떼 #드라이브 #아우디 #광화문 #광화문카페
#스타벅스 #현무암러스크 #아우디

#갬성 case2.

#갬성 case3. #광화문 #광화문맛집 #텐동 #튀김덮밥 #광화문 #광화문맛집 #음료수서비스 #JMT
#광화문 #광화문맛집 #best10 #식신로드

Naï ve Bayes 모델 튜닝 극히 드물게 언급된 해시태그는 단
몇 건의 데이터만으로 확률 값을 그대로 추종하게 되며(now), Training set에서 한번도 언급되지 않은 해시태그는 확률 값을 가질 수 없다(never) 해시태그의 확률 값을 모두 곱하기 때문에 태그가 늘어날 수록 그 확률 값이 극히 작은 값이 되어 0이나 다름없는 값으로 여겨지는 경우가 발생한다(underflow)  N번 이상 사용된 해시태그만 확률 값을 갖도록 하고, 그 이하로 언급될 경우 임의의 출현빈도를 부여하여 그에 따른 확률 값을 가지도록 한다 (laplace)  로그변환을 통해 0-1 사이의 확률 값을 0부터 마이너스 무한대까지의 값으로 바꾸어 비교한다 (logarithm transformation)

Laplace = 0 Laplace = 1 Laplace = 2 Naï
ve Bayes 모델 튜닝

결과값 baseline #인생커리 #광화문맛집 #데놀커리 #까스커리 Laplace smooth class1 Laplace
- 0 - 0.551 0 0.950672646 0 0 class0 Laplace - 0 - 0.449 0 0.049327354 0 0 class1 Laplace - 1 0.000000000265 0.551 0.00070922 0.946666667 0.00070922 0.00070922 class0 Laplace - 1 0.000000000004 0.449 0.00070922 0.053333333 0.00070922 0.00070922 class1 Laplace - 2 0.000000001721 0.551 0.001325381 0.942731278 0.001325381 0.001325381 class0 Laplace - 2 0.000000000029 0.449 0.001325381 0.057268722 0.001325381 0.001325381 Laplace smooth + Log Tran formation class1 Laplace - 0 - 0.2433 X - 0.0506 X X class0 Laplace - 0 - 1.5325 X - 3.0093 X X class1 Laplace - 1 - 22.0522 - 0.2433 - 7.2513 - 0.0548 - 7.2513 - 7.2513 class0 Laplace - 1 - 26.2177 - 1.5325 - 7.2513 - 2.9312 - 7.2513 - 7.2513 class1 Laplace - 2 - 20.1805 - 0.2433 - 6.6261 - 0.0590 - 6.6261 - 6.6261 class0 Laplace - 2 - 24.2706 - 1.5325 - 6.6261 - 2.8600 - 6.6261 - 6.6261 Naï ve Bayes 모델 튜닝 예시: #인생커리 #광화문맛집 #데놀커리 #까스커리

결과 분석 actual baseline 55.1% predicted Type= 0 Type= 1
row total accuracy 85.4% 0 2,929 212 3,142 precision 81.2% 1 1,092 4,713 5,805 recall 95.7% column total 4,021 4,925 8,946 f 87.8% actual predicted Type= 0 Type= 1 row total accuracy 85.6% 0 2,937 203 3,139 precision 81.3% 1 1,084 4,723 5,807 recall 95.9% column total 4,021 4,925 8,946 f 88.0% actual predicted Type= 0 Type= 1 row total accuracy 85.5% 0 2,915 193 3,107 precision 81.0% 1 1,107 4,733 5,839 recall 96.1% column total 4,021 4,925 8,946 f 87.9% actual predicted Type= 0 Type= 1 row total accuracy 85.4% 0 2,887 175 3,063 precision 80.7% 1 1,134 4,750 5,884 recall 96.4% column total 4,021 4,925 8,946 f 87.9% actual predicted Type= 0 Type= 1 row total accuracy 85.3% 0 2,863 161 3,023 precision 80.4% 1 1,158 4,765 5,923 recall 96.7% column total 4,021 4,925 8,946 f 87.8% - Baseline에 대비하여 F-measure를 향상시킴에는 튜닝만으로는 한계가 존재 - 정밀도(Precision)와 재현율(Recall)의 trade-off를 감안하지 않으면, 모델이 일그러질 수 있음 - 두 지표 중에 무엇에 더 큰 가중치를 두게 될지는 결국 분석 목적에 맞추어 판단 - 안전이나 연금 운용 등의 보수적 행위에는 정밀도를, 일반적인 마케팅 등 공격적인 행위에는 재현율이 더 중요한 지표가 될 수 있다고 보여짐

광화문 상권 지도 아직 국가 상권DB에 등록되지는 못했지만, 현시점 인스타그래머들의
광화문 맛집이 모여있는 지역으로 추정

현재 진행중 - 해시태그를 더더욱 숨기는 징후 (첫줄에 이어 두번째
줄까지 뛰는 현상 발생) - 페이스북에서 흥행하였던 카드뉴스 (캐러셀) 형태의 포스팅 급증 - 개인정보가 최소화 되어 있는점을 악용한 상업적 포스팅 증가

감사합니다 #DM @suby247

Datayanolja_2018_AI for gam-sung analysis

Datayanolja_2018_AI for gam-sung analysis

Il Sup Lee

Featured

Transcript

인스타그램 트렌드 탐험기 갬성분석을 위한 인공지능 #데이터야놀자 #2018 #이일섭

#도시공학 #빅데이터분석 #카드사 #금융데이터 #LBS #POI #GIS #MAP

Location Based Service POI (Points of interest) 시계방향 포잉, 식신,

Q1. 어디까지가 광화문일까? Location Based Service

Q1. 어디까지가 광화문일까? Q2. 떠오르는 상권은 어떻게 찾아 낼 수

광화문 상권 지도를 그려보자 We are here!

어디까지가 광화문 일까?

국가에서 인정한 주요 상권 중소기업벤처부, 국가지정 주요상권, 2017.9

[정부나 경제지표가 말하는 상권은 체감이 잘 안된다] 실제 고객들의 데이터로

국내 MAU 1천만 명 규모 2018년 국내 이용률 2위 (페이스북

각 SNS는 그 주요 유저 집단에 따라 고유의 결을 가진다

인스타그램 감성이란?

감성 vs 갬성 인스타그램에서 감성이라는 것이 폭발하여 점을 하나 더

분석

인스타그램에서 위치정보가 부착된 포스팅을 수집하여, 상권(요식업 중심)에 관한 데이터만을 추출하고,

바른ICT 연구소, 2018.3, ICT 빅데이터의 올바른 활용과 사회적 가치 창출을

모델링을 위한 데이터 전처리

#갬성 case1. #광화문 #스타벅스 #광화문카페 #바닐라라떼 #드라이브 #아우디 #광화문 #광화문카페

#갬성 case2.

#갬성 case3. #광화문 #광화문맛집 #텐동 #튀김덮밥 #광화문 #광화문맛집 #음료수서비스 #JMT

Naï ve Bayes 모델 튜닝 극히 드물게 언급된 해시태그는 단

Laplace = 0 Laplace = 1 Laplace = 2 Naï

결과값 baseline #인생커리 #광화문맛집 #데놀커리 #까스커리 Laplace smooth class1 Laplace

결과 분석 actual baseline 55.1% predicted Type= 0 Type= 1

광화문 상권 지도 아직 국가 상권DB에 등록되지는 못했지만, 현시점 인스타그래머들의

현재 진행중 - 해시태그를 더더욱 숨기는 징후 (첫줄에 이어 두번째

감사합니다 #DM @suby247