Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The 13th SAS Analysis Championship (2015)

Hanbin Seo
November 27, 2015

The 13th SAS Analysis Championship (2015)

제13회 SAS 분석 챔피언십
- 주제: 미세먼지와 호흡기 질환의 연관관계 규명

Hanbin Seo

November 27, 2015
Tweet

More Decks by Hanbin Seo

Other Decks in Education

Transcript

  1. 공기 질과 호흡기 질환의 관계 규명 모델 개발 및 코웨이

    공기 청정기 마케팅 기획 서울과학기술대학교 산업정보시스템전공 정재윤, 여현규, 서한빈 2015.8.31.
  2. 순서 1. 요약 2. 프로젝트 개요 1. 분석 주제 정의

    / 제공 데이터 현황 3. 데이터 수집 및 정제 1. 추가 데이터 수집 2. 목표변수 정제 3. 파생변수 생성 4. Dataset Overview / 기초통계량 탐색 5. 목표변수 이상치 제거 4. 모델 적용/평가/보완 1. 데이터셋 보완 2. 변수선택 : 예측적 방법 / 탐색적 방법 3. 모델링 : Regression / Decision Tree 5. 모델 활용 1. 요구조건 예측 2. 예측모델 활용 6. 마케팅 기획 1. 고객세분화 2. 마케팅 전략방향 제시 ➢ 별첨 2
  3. 1. 요약 3 ① 목표변수 정의 및 입력 데이터 셋

    정제 ② 탐색적 변수 선택법을 이용한 모델 변수 선정 ⑤ 설문지 데이터를 이용한 고객 군집 분석 ③ 선정 변수를 이용한 최적 모델 탐색(결론 : 의사결정나무) ④ 최종 결정 모델의 공기 질 관련 규칙 분석 ⑥ 고객 군 별 마케팅 전략방향 제시 주제1) 예측 모델, 연관 관계 규명 주제2) 군집 분석 및 마케팅 기획
  4. 분석 주제 정의 / 제공데이터 현황 2. 프로젝트 개요 주제

    1) 공기 질과 호흡기 질환과의 관계를 규명하는 예측모형 개발 주제 2) 공기청정기의 공기 질 개선효과를 이용한 마케팅 기획 심평원 제공 데이터 - 환자 명세서 내역 - 처방전 상세 내역 - 요양 기관 현황 서울시 제공 데이터 - 공기 오염도 - 기상 관측 정보 - 용도 지역 현황 - 토지 현황 코웨이 제공 데이터 - 실내 공기 질 - 청정기 보급률 - 코웨이 설문지(고객) 추가 수집 가능 데이터 “서울 열린 데이터 광장” 제공 분석 목표 1. 공기 질과 호흡기 질환과의 관계와 공기청정기의 공기 질 개선효과 규명 2. 특정기간(서울25개 구의 4개월)의 공기 질 에 따른 일별 호흡기 질환으로 내원하 는 환자수 예측 모델 3. 공기청정기의 공기 질 개선효과를 이 용한 마케팅 기획 4
  5. 추가 데이터 수집 • 서울 열린 데이터 광장에서 약 4100개의

    데이터 중 공기 질 또는 호흡기 질환과 관련된다 판단되는 데이터 셋 23개를 수집. • 다음과 같은 데이터 셋은 사용하지 않음. • 이미 제공된 데이터 • 기본 데이터와 시간대가 다른 데이터(2012년~2014년) • 지역 구분을 할 수 없는 데이터(구 단위 데이터 필요) • 출처 : 서울 열린 데이터 광장(http://data.seoul.go.kr/) 3. 데이터 수집 및 정제 추가 수집 가능 데이터 “서울 열린 데이터 광장” 제공 각 구의 특성을 보여줄 수 있는 데이터로서 “주민등록인구(연령별/구별)” 데이터테이블 사용 (사용 변수 : 단위 별 총 인구수, 65세 이상 고령인구) Dataset Sources : http://data.seoul.go.kr/openinf/linkview.jsp?infId=OA-12235&tMenu=11 5
  6. 목표변수 정제 3. 데이터 수집 및 정제 [호흡기 질환의 조작적

    정의] 1. 환자유형 : 외래(입원 제외) 2. 요양기관 규모 : 병원 or 의원 3. 주상병 or 부상병코드 : 호흡기 관련코드(J00~J99) PROCESS ① [20_table]에서 “RECU_FR_DD(내방일)” 기준으로 date변수 생성 ② [SAMPLING_NPS](요양기관 테이블)에서 “서울시”에 위치한 YNO 데이터 추출 이때, YNO 빈도수(YNO_COUNT) 가 2 이상인 데이터 제거(다음 슬라이드 추가설명) ③ [20_table]과 [SAMPLING_NPS]에서 YNO_COUNT = 1 기준으로 조인 ④ [호흡기 질환의 조작적 정의]에 의해 호흡기질환환자 추출 → 병원 또는 의원 추출 → 외래환자 추출 ⑤ Date(일), Place(구) 기준 환자수 속성 추가(목표변수 생성) cf ) YNO_COUNT : [SAMPLING_NPS]에서 중복되는 YNO수 ① ② ③ ④ ⑤ 6
  7. 목표변수 정제(추가 설명) 3. 데이터 수집 및 정제 ISSUE •

    [SAMPLING_NPS]에서 YNO가 같은 경우 PLC_CD_NM 변수를 제외한 모든 동일. 따라서 JOIN시 YNO와 함께 사용 할 수 있는 KEY값은 PLC_CD_NM밖에 없음. • 하지만, 심평원 데이터 중 20,30,40,53 어떤 테 이블도 PLC_CD_NM와 관련된 정보를 가지고 있 지 않아 KEY값으로 사용 할 수 없음. 따라서 YNO만 key값으로 사용하며 이러한 경우 좌측 예시와 같은 문제가 발생 ① PROCESS ① [SAMPLING_NPS]에서 YNO_COUNT = 3인 데이터를 뽑아 [20_table]에 조인 ② 이 경우, 같은 환자(NO포함 모든 데이터 같음) 가 서로 다른 지역 3곳에 할당 되어 환자가 실제로 외래진료 한 지역(구)을 알 수 없음. 따라서, YNO_COUNT ≥ 2 인 데이터 삭제 ② 환자가 어느 지역의 요양기관에서 진료를 했는지 구분되지 않음. 즉, 존재하지 않은 정보가 생기므로 YNO_COUNT ≥ 2 인 데이터 삭제 NO (수진자 고유번호) YNO (요양기관 고유번호) 45863 6529 PLC_CD_NM YNO 성북구 6529 송파구 6529 서초구 6529 7
  8. 파생변수 정의 3. 데이터 수집 및 정제 * 파생변수 유형

    A. 관측 값 비율 파생변수 B. 질의 파생변수 : 변수에 조건을 정의해 생성(EG이용) C. 통합대기환경지수 파생변수 : 대기오염도 측정치 환산공식 이용 (서울시 대기환경정보 제공) D. 관측 값 분류 파생변수 (다음 슬라이드 추가설명) CATEGORY NAME LABEL TYPE MADE BY 목표변수 T_PATIENTS_RECORD 일별구별환자수 B 일별, 구별 NO(환자 고유 값) count T_RATIO_POPULATION 인구수와환자수비율 A/B 환자수/인구수 T_RATIO_YNO 요양기관수와 환자 비율 A/B 환자수/요양기관 수 공기질변수 CAI_CO co 대기환경지수 C 대기환경지수식대입 CAI_NO NO통합대기환경지수 C 대기환경지수식대입 CAI_O3 O3대기환경지수 C 대기환경지수식대입 CAI_PM10 PM10 대기환경지수 C 대기환경지수식대입 CAI_PM25 PM25대기환경지수 C 대기환경지수식대입 CAI_SO so 대기환경지수 C 대기환경지수식대입 CAI1 통합대기환경지수_비가산 C 통합대기환경지수식에서 비가산 CAI2 통합대기환경지수(가산) C 통합대기환경지수식에서 가산 지역속성변수 COUNT_YNO 구별요양기관수 B 연도별, 구별 호흡기 환자를 한번 이상 받은 병원 또는 의원 COUNT_YNO_C 구별요양기관수(의원) B 연도별, 구별 호흡기 환자를 한번 이상 받은 의원 COUNT_YNO_H 구별요양기관수(병원) B 연도별, 구별 호흡기 환자를 한번 이상 받은 병원 LAND_RATIO_FACTORY 공장비율 A 공자면적/구면적 LAND_RATIO_FOREST 숲비율 A 숩면적/구면적 LAND_RATIO_PARK 공원비율 A 공원면적/구면적 LAND_RATIO_PARKING 주차장비율 A 주차장면적/구면적 LAND_RATIO_ROAD 도로비율 A 도로면적/구면적 POP_DENSITY 인구밀도 A 구인구/구면적 POP_RATIO_ELDERLY 65세 이상 인구비율 A 65세 이상인구/구인구 USE_RATIO_COMMERCE 용도지역합계에 대한 상업지역비율 A 상업지역면적/용도지역면적 합 USE_RATIO_DWELL 용도지역합계에 대한 주거지비율 A 주거지면적/용도지역면적 합 USE_RATIO_GREEN 용도지역합계에 대한 녹지비율 A 녹지면적면적/용도지역면적 합 USE_RATIO_INDUSTRY 용도지역합계에대한공업지역비율 A 공업지역면적/용도지역면적 합 날짜속성변수 DATE_TYPE 영업여부에 따른 DATE_TYPE D (주말 포함 공휴일), (공휴일 다음날), 나머지 DATE_WEEKDAY 요일변수 B 요일 날씨속성변수 TEMP_RANGE 일교차 B 최고기온-최저기온 8
  9. 파생변수 정의(관측 값 분류 파생변수 추가설명) 1. 목표변수 산점도 탐색(강남구

    기준) 2. 요일 특성 별 관측 값 분리 - 비선형의 시계열성 분포를 확인 - 0에 가까운 관측 값 다수 분포(이상치가 아닌 데이터 유형이 다를 것이라 판단 → 요양기관 영업여부에 따른 관측여부 가정) 요양기관의 휴무일(d)/휴무일 전날(d-1)/휴무일 다음날(d+1)/이외의 영업일(else) 분리하여 확인 3. 관측 값 분포에 따라 요일변수 그룹화 최종적으로, 목표변수는 요양기관의 휴무여부에 따라 분류할 수 있어 휴무일(일요일, 공휴일)을 기준으로, 휴무일(d)/휴무일 다음날(d+1)/이외의 나머지 영업일(else) 값을 갖는 명목형 변수를 파생변수로 추가함. 3. 데이터 수집 및 정제 9
  10. Dataset Overview 3. 데이터 수집 및 정제 데이터 구분 데이터

    명 SAS Data VA 명세서 일반내역 VA_mod 서울시 실외 대기오염도 AIR_POLLUTE 일별 기상 관측 정보 Weather 용도 지역 현황 Useland 토지현황(지목별) Ground 코웨이 실내공기질 데이터 IAQ_DATA 코웨이 청정기 보급율 데이터 OCCUPY 코웨이 설문지 데이터 QUEST 심평원 명세서 일반내역(20_table) 2012년 nps_200table_2012 진료 내역(30_table) nps_300table_2012_1 상병(40_table) nps_400table_2012 처방전 상세 내역(53_table) nps_530table_2012_1 요양기관 현황 sampling_nps_sas_ykiho_2012 명세서 일반내역(20_table) 2013년 nps_200table_2013 진료 내역(30_table) nps_300table_2013_1 상병(40_table) nps_400table_2013 처방전 상세 내역(53_table) nps_530table_2013_1 요양기관 현황 sampling_nps_sas_ykiho_2013 명세서 일반내역(20_table) 2014년 sample_nps_2014_20 진료 내역(30_table) sample_nps_2014_30 상병(40_table) sample_nps_2014_40 처방전 상세 내역(53_table) sample_nps_2014_53 요양기관 현황 sampling_nps_sas_ykiho_2014 추가데이터 주민등록인구(연령별/구별) - 현재까지의 과정(3. 데이터 수집 및 정제)을 통해 오른쪽 표[변수정보]와 같이 데이터 셋(RAW_DATA_TABLE_V5)을 정리함. CATEGORY NAME LABEL LEVEL 목표변수 T_PATIENTS_RECORD 일별구별환자수 INTERVAL T_RATIO_POPULATION 인구수와환자수비율 INTERVAL T_RATIO_YNO 요양기관수와환자비율 INTERVAL 공기질변수 CAI_CO co 대기환경지수 INTERVAL CAI_NO NO통합대기환경지수 INTERVAL CAI_O3 O3대기환경지수 INTERVAL CAI_PM10 PM10 대기환경지수 INTERVAL CAI_PM25 PM25대기환경지수 INTERVAL CAI_SO so 대기환경지수 INTERVAL CAI1 통합대기환경지수_비가산 INTERVAL CAI2 통합대기환경지수(가산) INTERVAL RAW_CO CO 측정값 INTERVAL RAW_NO NO2 측정값 INTERVAL RAW_O3 O3 측정값 INTERVAL RAW_PM10 PM10 측정값 INTERVAL RAW_PM25 PM25 측정값 INTERVAL RAW_SO SO 측정값 INTERVAL 지역속성변수 COUNT_YNO 구별요양기관수 INTERVAL COUNT_YNO_C 구별 의원 수 INTERVAL COUNT_YNO_H 구별 병원 수 INTERVAL LAND_RATIO_FACTORY 공장비율 INTERVAL LAND_RATIO_FOREST 숲비율 INTERVAL LAND_RATIO_PARK 공원비율 INTERVAL LAND_RATIO_PARKING 주차장비율 INTERVAL LAND_RATIO_ROAD 도로비율 INTERVAL LAND_TOTAL 총 면적 INTERVAL PLACE 구(이름) SEGMENT POP_DENSITY 인구밀도 INTERVAL POP_ELDERLY 65세이상고령자 INTERVAL POP_RATIO_ELDERLY 65세이상인구비율 INTERVAL POPULATION 인구 INTERVAL USE_RATIO_COMMERCE 용도지역합계에대한상업지역비율 INTERVAL USE_RATIO_DWELL 용도지역합계에대한 주거지비율 INTERVAL USE_RATIO_GREEN 용도지역합계에대한녹지비율 INTERVAL USE_RATIO_INDUSTRY 용도지역합계에대한공업지역비율 INTERVAL 날짜속성변수 DATE 관측일자 TIME_ID DATE_TYPE 영업여부에 따른 DATE_TYPE NOMINAL DATE_WEEKDAY 요일변수 NOMINAL DATE_YEAR 키(연도 정보) NOMINAL 날씨속성변수 HUMI_AVG 평균습도 INTERVAL HUMI_MAX 최고습도 INTERVAL HUMI_MIN 최저습도 INTERVAL TEMP_AVG 평균기온 INTERVAL TEMP_MAX 최고기온 INTERVAL TEMP_MIN 최저기온 INTERVAL TEMP_RANGE 일교차 INTERVAL 10
  11. 목표변수 이상치 처리 3. 데이터 수집 및 정제 기준치 처리

    기준 : 상·하위 1% 데이터(합 2%, n=486) 목표변수 T_PATIENTS_RECORD에서 각 관측 값은 특정 date(일자)에 특정 place(지역,구)에서 관측되는 환자 수를 의미함. 분석 변수 : T_PATIENTS_RECORD 일별구별환자수 평균 표준편차 최솟값 최댓값 N 0.05 백분위수 제1 백분위수 제5 백분위수 제95 백분위수 제99 백분위수 99.5 백분위수 111.37578 72.752205 0 580 24275 0 1 6 237 315 347 12
  12. 데이터 셋 보완(RAW_DATA_TABLE_V6_DATE_CHECK1) 4. 모델 적용/평가/보완 T_ PATIENTS _RECORD 공기

    질_관측 값 공기 질_대기환경지수 날씨속성변수 RAW_NO RAW_O3 RAW_SO RAW_CO RAW_ PM10 RAW_ PM25 CAI_NO CAI_SO CAI_CO CAI_O3 CAI_PM25 CAI_PM10 CAI1 CAI2 TEMP_ MIN TEMP_ AVG TEMP_ MAX TEMP_ RANGE HUMI_ AVG HUMI_ MIN HUMI_ MAX 당일 0.19964 -0.05085 0.16673 0.12777 0.17122 0.13946 0.20129 0.16612 0.12771 -0.04489 0.13975 0.16007 0.15267 0.14377 -0.20042 -0.19074 -0.17002 0.08077 -0.12455 -0.12823 -0.09553 1일 전 0.05401 0.03729 0.11983 0.08092 0.13897 0.10921 0.05374 0.11933 0.08131 0.03704 0.11219 0.13216 0.11451 0.11537 -0.20805 -0.20335 -0.18586 0.05038 -0.12484 -0.13184 -0.06555 2일 전 0.07279 0.0329 0.1315 0.08816 0.14359 0.1141 0.07346 0.13141 0.0881 0.03116 0.11291 0.13683 0.12418 0.11971 -0.20628 -0.20343 -0.18881 0.03392 -0.11323 -0.12638 -0.07963 3일 전 0.07114 0.01813 0.12043 0.08739 0.1353 0.1045 0.07196 0.12003 0.08763 0.02042 0.10681 0.12711 0.11467 0.10851 -0.21044 -0.20593 -0.18682 0.0553 -0.11517 -0.13423 -0.06812 “오늘 방문한 환자는 몇 일 전의 공기 질/날씨에 영향으로 내방하게 되었는가?” * 날짜 조정에 따른 목표변수와 공기 질/날씨변수와의 상관관계 ▪ 목표변수는 요양기관에 환자가 방문 했을 때 관측됨. (목표변수에 영향을 주는 변수가 어느 시점의 공기 질/날씨인지 확인 할 필요 있음) ▪ 날짜 조정 이후, 목표변수와의 상관계수가 가장 높았던 공기 질/날씨 변수를 기존 변수에 대체함(데이터 셋 보완 내용) ▪ 공기 질/날씨 변수 외의 입력변수는 연/월 단위 제공 데이터(조정 불필요) * 날짜 조정 상관계수 결과를 반영한 데이터셋 보완 [RAW_DATA_TABLE_V5] ↓ [RAW_DATA_TABLE_V6_DATE_CHECK1] 13
  13. 변수 선택 : 입력변수 선택과정 개요 4. 모델 적용/평가/보완 Ⅰ.

    상관계수를 통한 예측적 변수선택 ① 변수간의 상관관계 p-value 고려 - 모든 변수간의 관계 p-value 0.001이하 (즉, 모든 변수들간 상관관계 있음을 나타냄 – 지표 부적합) ② 변수간의 상관계수 고려 1) 상관계수 절대값 0.5/0.6/0.65/0.7 점진적 증가해 “상관계수 높은 변수 관계” 추출 (공기 질 변수 유의미한 0.65/0.7 기준에서만 시행) 2) 변수 관계 중 목표변수와의 상관계수 가장 큰 변수 선택 (대표 변수 선정, 이외의 관계 갖는 변수 삭제) ③ 분산팽창지수(VIF)를 고려해 ‘다중공성선‘ 예상되는 변수 추가 삭제 ④ 상관계수 기준 별 위 과정을 거친 모델 비교해 Valid. SSE 최소인 모델에서 선택된 변수 선택 Ⅱ. 단계별 선택을 통한 탐색적 변수 선택 ① 데이터분할 노드 변경 반복, 회귀분석 시행 난수초기값 변경/반복 시행(15회씩), 기타 parameter 고정 ② “전진 선택”, “후진 제거”, “단계적 선택“법에 의한 회귀분석모델 중 최적 모델에 적용되는 입력변수를 분석. (이때, 최적모델의 기준은 Valid. SSE 최소) ③ 분산팽창지수(VIF)를 고려해 ‘다중공성선‘ 예상되는 변수 추가 삭제 - (선택적 변수선택 과정과 동일) ④ 상관계수 기준 별 위 과정을 거친 모델 비교해 Valid. SSE 최소인 모델에서 선택된 변수 선택 1. 변수선택법 개요(다음 슬라이드부터 설명) 2. 변수선택법 결과 및 최종선택 참조 모델 변수선택 방법 최적모델 기준 SSE : Train SSE : Valid. SSE : Test Adj.-R² Ⅰ. 예측적 방법 상관계수 0.65 14,421,622 7,386,324 2,268,690 0.7838 상관계수 0.70 14,285,864 7,315,528 2,37,0596 0.7857 Ⅱ. 탐색적 방법 전진 선택 13,646,254 6,568,176 2,219,554 0.7979 후진 제거 13,473,073 6,568,162 2,263,994 0.7979 단계별 선택 15,393,497 7,542,092 2,584,485 0.7684 각 기준에서 최적모델의 Valid. SSE값을 비교했을 때, Ⅱ. 탐색적 방법(후진제거 법)의 최적모델의 SSE값이 최소이므로, 이 모델에서 선택된 변수를 참고하고자 함. 14
  14. 변수 선택 : Ⅰ. 상관계수를 통한 예측적 변수선택 4. 모델

    적용/평가/보완 * 상관계수 높은 변수 관계 예시(상관계수 절대값 0.7기준) * 목표변수와의 상관계수(ⓐ 변수 관계 기준, ⓑ이외의 모든 변수 관계에서 동일처리) PROCESS ① 변수간의 상관관계 p-value 고려 - 모든 변수간의 관계 p-value 0.001이하 (즉, 모든 변수들간 상관관계 있음을 나타냄 – 지표 부적합) ② 변수간의 상관계수 고려 – (현재 슬라이드 설명) 1) 상관계수 절대값 0.5/0.6/0.65/0.7 점진적 증가해 “상관계수 높은 변수 관계” 추출 (공기 질 변수 유의미한 0.65/0.7 기준에서만 시행) 2) 변수 관계 중 목표변수와의 상관계수 가장 큰 변수 선택 (대표 변수 선정, 이외의 관계 갖는 변수 삭제) ③ 분산팽창지수(VIF)를 고려해 ‘다중공성선‘ 예상되는 변수 추가 삭제 - (다음 슬라이드 설명) ④ 상관계수 기준 별 위 과정을 거친 모델 비교해 Valid. SSE 최소인 모델에서 선택된 변수 선택 - (현재 슬라이드 우측하단 결과) 기준 변수 비교 변수 COUNT_YNO_H COUNT_YNO_C COUNT_YNO POPULATION LAND_TOTAL 각각의 RAW 각각의 CAI RAW_PM10 RAW_PM25 CAI_PM25 CAI_PM10 CAI1 CAI2 POPULATION POP_ELDERLY TEMP_MIN TEMP_AVG TEMP_MAX LAND_RATIO_FOREST LAND_RATIO_ROAD LAND_RATIO_PARKING USE_RATIO_INDUSTRY USE_RATIO_DWELL USE_RATIO_GREEN Cf) 변수관계 中 블록처리 된 변수 최종선택(이외의 변수 제거) Cf) RAW물질변수-CAI물질변수는 부분적 선택(ⓑ 변수관계 기준) Cf) 빨간색 글씨(기울임)로 처리된 변수는 기준변수와 음의 상관관계 변수 명 COUNT_YNO_H COUNT_YNO_C COUNT_YNO POPULATION LAND_TOTAL 변수라벨 요양기관 수 (병원) 요양기관 수 (의원) 요양기관 수 인구 수 총 면적 상관계수 (목표변수) 0.42936 0.31895 0.4277 0.44081 0.32396 * 목표변수와의 상관계수(ⓑ 변수 관계 기준, 부분적 선택) 물질 NO O3 CO SO PM10 PM25 RAW 0.26938 -0.1485 0.17859 0.17852 0.15208 0.09795 CAI 0.27111 -0.14336 0.17845 0.17782 0.14251 0.10443 의사결정 CAI RAW RAW RAW RAW 삭제(ⓒ참고) ⓐ ⓑ ⓒ 상관계수 기준 SSE : Train SSE : Valid. SSE : Test Adj.-R² 0.7 14,285,864 7,315,528 2,37,0596 0.7857 0.65 14,421,622 7,386,324 2,364,467 0.7838 ▶ 예측적 변수선택 방법 모델 비교 결과 Cf. (Train : Valid. : Test = 60 : 30 : 10) Cf) SSE : Sum of Squared Errors 15
  15. 변수 선택 : Ⅰ. 상관계수를 통한 예측적 변수선택(결과) 4. 모델

    적용/평가/보완 * 변수선택 결과(상관계수 절대값 0.7기준) Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > |t| Variance Inflation Intercept Intercept 1 -38425 5031.4165 -7.64 <.0001 0 RAW_O3 O3 관측 값 1 -314.21023 70.79516 -4.44 <.0001 2.38962 RAW_CO CO 관측 값 1 -26.16774 4.50901 -5.8 <.0001 3.4774 RAW_SO SO 관측 값 1 628.81398 354.02905 1.78 0.0758 2.38933 RAW_PM10 PM10 관측 값 1 -0.00787 0.03894 -0.2 0.8399 2.77475 CAI_NO NO통합대기환경지수 1 0.21884 0.04668 4.69 <.0001 3.1625 LAND_RATIO_FOREST 숲 비율 1 2.03056 21.55593 0.09 0.925 30.62476 LAND_RATIO_FACTORY 공장 비율 1 -448.96571 103.48184 -4.34 <.0001 31.32779 LAND_RATIO_PARK 공원 비율 1 -104.25734 70.38749 -1.48 0.1386 7.01928 POPULATION 인구 1 8.925E-05 0.0000881 1.01 0.311 227.50961 POP_DENSITY 인구 밀도 1 0.0001406 0.00247 0.06 0.9546 341.94299 POP_RATIO_ELDERLY 65세이상인구비율 1 -2106.4227 438.56405 -4.8 <.0001 57.4135 DATE_YEAR 키(연도 정보) 1 19.17376 2.53159 7.57 <.0001 11.13437 DATE_WEEKDAY 요일변수 1 -4.9012 0.40742 -12.03 <.0001 1.89583 DATE_TYPE 영업여부에 따른 DATE_TYPE 1 49.30375 1.06992 46.08 <.0001 1.9781 USE_RATIO_COMMERCE 용도지역합계에 대한 상업지역비 율 1 34.35468 89.61996 0.38 0.7015 17.69374 USE_RATIO_INDUSTRY 용도지역합계에대한공업지역비율 1 138.3633 27.57059 5.02 <.0001 40.80696 USE_RATIO_GREEN 용도지역합계에 대한 녹지비율 1 139.23672 122.19239 1.14 0.2545 567.67009 TEMP_MIN 최저기온 1 -1.33886 0.08517 -15.72 <.0001 2.55518 TEMP_RANGE 일교차 1 1.59281 0.26438 6.02 <.0001 1.47856 HUMI_MIN 최저습도 1 -0.24314 0.04351 -5.59 <.0001 1.48878 HUMI_AVG 평균습도 1 -0.24555 0.05741 -4.28 <.0001 2.00006 HUMI_MAX 최고습도 1 -0.05581 0.05902 -0.95 0.3444 1.74896 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > |t| Variance Inflation Intercept Intercept 1 -17387 2468.5675 -7.04 <.0001 0 RAW_O3 O3 관측값 1 -251.83592 69.82318 -3.61 0.0003 2.31564 RAW_CO CO 관측값 1 -27.16816 4.50508 -6.03 <.0001 3.45818 RAW_SO SO 관측값 1 623.90902 343.31898 1.82 0.0692 2.23843 RAW_PM10 PM10 관측값 1 0.00183 0.03836 0.05 0.962 2.68248 CAI_NO NO통합대기환경지수 1 0.22939 0.04648 4.94 <.0001 3.12395 LAND_RATIO_FOREST 숲 비율 1 -10.30974 5.95686 -1.73 0.0835 2.32983 LAND_RATIO_PARK 공원비율 1 -227.7683 47.45253 -4.8 <.0001 3.17812 POPULATION 인구 1 0.0003409 1.029E-05 33.14 <.0001 3.09036 POP_RATIO_ELDERLY 65세 이상인구비율 1 -167.79887 126.28669 -1.33 0.184 4.74256 DATE_YEAR 키(연도 정보) 1 8.59845 1.23255 6.98 <.0001 2.62928 DATE_WEEKDAY 요일변수 1 -4.89002 0.40818 -11.98 <.0001 1.89576 DATE_TYPE 영업여부에 따른 DATE_TYPE 1 49.40718 1.07165 46.1 <.0001 1.97698 USE_RATIO_COMMERCE 용도지역합계에 대한 상업지역비율 1 14.62831 33.08934 0.44 0.6584 2.4029 USE_RATIO_INDUSTRY 용도지역합계에 대한 공업지역비율 1 52.69994 7.23038 7.29 <.0001 2.79586 TEMP_MIN 최저기온 1 -1.44134 0.08272 -17.42 <.0001 2.4011 TEMP_RANGE 일교차 1 1.62254 0.26454 6.13 <.0001 1.47472 HUMI_MIN 최저습도 1 -0.25702 0.04337 -5.93 <.0001 1.47364 HUMI_AVG 평균습도 1 -0.26942 0.05707 -4.72 <.0001 1.96877 HUMI_MAX 최고습도 1 -0.06311 0.05907 -1.07 0.2854 1.74538 ∴ 예측적 변수선택 방법을 이용해 최종선택 된 변수 목록 16
  16. 변수 선택 : Ⅱ. 단계별 선택을 통한 탐색적 변수 선택

    4. 모델 적용/평가/보완 PROCESS ① 오른쪽 설정과 같이 반복적으로 회귀분석 시행(데이터분할 노드 변경 반복) 난수 값 변경/반복 시행(15회씩), 기타 parameter 고정 – (현재 슬라이드 우측 참고) ② “전진 선택”, “후진 제거”, “단계적 선택“법에 의한 회귀분석모델 중 최적 모델에 적용되는 입력변수를 분석. (이때, 최적모델의 기준은 Valid. SSE 최소) ③ 분산팽창지수(VIF)를 고려해 ‘다중공성선‘ 예상되는 변수 추가 삭제 - (선택적 변수선택 과정과 동일) ④ 상관계수 기준 별 위 과정을 거친 모델 비교해 Valid. SSE 최소인 모델에서 선택된 변수 선택 - (현재 슬라이드 좌측하단 결과) * 데이터분할 노드 속성패널 cf. 난수 값 변경/반복 시행(50회) cf. 데이터 셋 할당 고정 (Train : Valid. : Test = 60 : 30 : 10) * 회귀분석 노드 속성패널 cf. 선형회귀 적용 (∵ 목표변수는 연속 형 변수) cf. “전진 선택”, “후진 제거”, “단계적 선택” 과정 시행 이후, 최적 모델 참조 * 결측 값 처리 노드 속성패널 cf. 모든 결측 값 처리방법은 “Tree”방법 적용 (∵ 관측 값 의 분포를 보아 평균값/최다 빈도 값을 적용하기에 다소 부적합하다고 판단됨.) ▶ 탐색적 변수선택 방법 모델 비교 결과(변수선택법 기준, ③ 과정 반영 전) 기준 난수값 변수선택법 SSE : Train SSE : Valid. SSE : Test Adj.-R² 15000 전진 선택법 13,646,254 6,882,375 2,219,554 0.7979 12000 후진 제거법 13,473,073 6,593,134 2,278,727 0.7979 12000 단계적 선택법 15,393,497 7,542,092 2,584,485 0.7684 17
  17. 변수 선택 : Ⅱ. 단계별 선택을 통한 탐색적 변수 선택

    4. 모델 적용/평가/보완 * 변수선택 결과(후진선택법 Valid. SSE 최소(난수 : 12000) 기준) Parameter Estimates Variable Label DF Parameter Standard t Value Pr > |t| Variance Estimate Error Inflation Intercept Intercept 1 -77.47004 15.06294 -5.14 <.0001 0 DATE_WEEKDAY 요일변수 1 -5.59062 0.2962 -18.87 <.0001 1.90158 DATE_TYPE (주말 포함 공휴일), (공휴일 다음 날), 나머지 1 53.47131 0.77633 68.88 <.0001 1.97728 COUNT_YNO 구별 요양기관 수 1 -0.07975 0.04551 -1.75 0.0797 53.47384 RAW_NO NO2 측정값 1 664.13575 58.44385 11.36 <.0001 3.38591 RAW_O3 1 -117.50327 49.37101 -2.38 0.0173 2.29406 RAW_CO 1 -29.50355 3.48203 -8.47 <.0001 3.67662 RAW_PM10 1 0.46138 0.06392 7.22 <.0001 14.67005 RAW_PM25 1 -0.60791 0.07989 -7.61 <.0001 6.75852 CAI1 통합대기환경지수_비가산 1 -0.06259 0.07638 -0.82 0.4125 35.24707 CAI2 통합대기환경지수(가산) 1 -0.05936 0.0481 -1.23 0.2171 23.24739 TEMP_MIN 최저기온 1 -1.39097 0.14353 -9.69 <.0001 13.59766 TEMP_MAX 최고기온 1 -0.09395 0.13316 -0.71 0.4805 12.29793 TEMP_RANGE 일교차 1 1.1787 0.18173 6.49 <.0001 1.39443 HUMI_MIN 최저습도 1 -0.29375 0.03325 -8.84 <.0001 1.58466 HUMI_AVG 평균습도 1 -0.32329 0.03758 -8.6 <.0001 1.56312 LAND_TOTAL 1 2.99E-06 4.95E-07 6.05 <.0001 93.16447 POP_ELDERLY 65세이상고령자 1 0.0021 0.0001131 18.58 <.0001 4.72055 POP_RATIO_ELDERLY 65세이상인구비율 1 -569.99391 58.62967 -9.72 <.0001 3.46929 LAND_RATIO_FOREST 숲비율 1 48.71207 10.32074 4.72 <.0001 15.13816 LAND_RATIO_PARKING 주차장비율 1 -1872.8642 341.87324 -5.48 <.0001 3.78129 LAND_RATIO_ROAD 도로비율 1 707.9726 130.55675 5.42 <.0001 93.55925 LAND_RATIO_FACTORY 공장비율 1 -190.27737 60.90953 -3.12 0.0018 12.1946 LAND_RATIO_PARK 공원비율 1 276.75742 36.65868 7.55 <.0001 2.91655 USE_RATIO_DWELL 용도지역합계에 대한 주거지비율 1 -71.70884 9.46585 -7.58 <.0001 14.44337 USE_RATIO_COMMERCE 용도지역합계에대한상업지역비율 1 -451.87436 88.63837 -5.1 <.0001 25.37236 USE_RATIO_GREEN 용도지역합계에 대한 녹지비율 1 -65.87677 13.30128 -4.95 <.0001 24.86851 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > |t| Variance Inflation Intercept Intercept 1 -0.22269 7.13703 -0.03 0.9751 0 DATE_WEEKDAY 요일변수 1 -5.07381 0.26394 -19.22 <.0001 1.88358 DATE_TYPE 영업여부에 따른 DATE_TYPE 1 52.35464 0.69301 75.55 <.0001 1.95197 COUNT_YNO 구별 요양기관 수 1 0.09301 0.01087 8.56 <.0001 3.65684 RAW_NO NO2 측정값 1 674.18714 49.17914 13.71 <.0001 3.01466 RAW_O3 O3 측정값 1 -48.46586 42.97257 -1.13 0.2594 2.16027 RAW_CO CO 측정값 1 -23.29523 2.86398 -8.13 <.0001 3.20103 RAW_PM10 PM10 측정값 1 0.37156 0.04673 7.95 <.0001 9.80241 RAW_PM25 PM25 측정값 1 -0.53394 0.06963 -7.67 <.0001 6.40931 CAI2 통합대기환경지수(가산) 1 -0.0919 0.02305 -3.99 <.0001 6.63609 POP_ELDERLY 65세이상고령자 1 0.00211 8.297E-05 25.42 <.0001 4.852 POP_RATIO_ELDERLY 65세이상인구비율 1 -714.84326 47.64911 -15 <.0001 3.45075 TEMP_MIN 최저기온 1 -1.34734 0.05246 -25.68 <.0001 2.28012 TEMP_RANGE 일교차 1 0.92917 0.15968 5.82 <.0001 1.36352 HUMI_MIN 최저습도 1 -0.24765 0.02807 -8.82 <.0001 1.43328 HUMI_AVG 평균습도 1 -0.29902 0.03299 -9.06 <.0001 1.52836 LAND_RATIO_FOREST 숲비율 1 3.82894 3.29297 1.16 0.2449 1.83356 LAND_RATIO_PARKING 주차장비율 1 -1186.0736 224.89129 -5.27 <.0001 1.94156 LAND_RATIO_FACTORY 공장비율 1 50.72694 26.04079 1.95 0.0514 2.67803 LAND_RATIO_PARK 공원비율 1 336.66398 26.79981 12.56 <.0001 1.87254 USE_RATIO_DWELL 용도지역합계에 대한 주거지비율 1 -30.04394 2.84477 -10.56 <.0001 1.58533 USE_RATIO_COMMERCE 용도지역합계에 대한 상업지역비율 1 113.85128 8.90953 12.78 <.0001 3.6333 ∴ (탐색적 변수선택 방법을 이용해) 최종선택 된 변수 목록 18
  18. 모델링 : 예측모델 구축 개요 4. 모델 적용/평가/보완 Ⅰ. Regression

    최적 모델 SSE : 2,178,971 Ⅱ. Decision Tree 최적 모델 SSE : 1,146,403 주제 1) 공기 질과 호흡기 질환과의 관계를 규명하는 예측모형 개발 목표변수 : 조작적 정의에 의한 호흡기 질환 환자수(구/일 단위) Ⅲ. Neural Network 결과에 대한 해석의 어려움으로 인해 모델 구축과정에서 제외 19
  19. 모델링 : Regression 4. 모델 적용/평가/보완 모델 노드 Reg Reg2

    Reg3 Reg4 Reg5 Reg6 모델 설명 default GLM 2차 식 3차 식 절편생략 절편 생략, GML 방정식 (Equation) 주효과(Main Effects) Y Y Y Y Y Y 2요인 교호작용 (Two-Factor Interactions) N N N N N N 다항식 항(Polynomial Terms) N N Y Y N N 다항식 차수 (Polynomial Degree) 2 2 2 3 2 2 사용자 항(User Terms) N N N N N N Class 타겟 (Class Targets) 회귀 유형(Regression Type) NORMAL NORMAL NORMAL NORMAL NORMAL NORMAL 연결함수(Link Function) LOGIT LOGIT LOGIT LOGIT LOGIT LOGIT 모델 옵션 (Model Options) 절편 생략(Suppress Intercept) N N N N Y Y 입력 코딩(Input Coding) DEVIATION GLM DEVIATION DEVIATION DEVIATION GLM Reg Reg2 Reg3 Reg4 Reg5 Reg6 Valid: SSE 6818865 6818865 5538643 5432937 6992049 6818865 Test: SSE 2178971 2178971 1847264 1768407 2255616 2178971 Adj R-Sq 0.7998 0.7998 0.8379 0.8583 0.9421 0.9438 1. 회귀분석 개요 * 설정옵션 1-1 참고 1-1. 회귀분석 설정 옵션 2. 회귀분석 결과 * 탐색적 변수선택 과정에서의 최적성능의 옵션 ▪ 회귀분석 과정에서 최적 모델 : Reg6(절편생략+GML 옵션 적용) ▪ 탐색적 모델링과정에서 성능에 초점을 맞춘다면 valid/test SSE 최소인 Reg4를 선정할 수 있음. ▪ 그러나, 변수의 개수가 많아져 주요변수의 해석이 어려운 다항식 모델(3,4)을 제외하고, 최소 SSE(test기준)와 최대 adj-R²인 모델을 선정 * input dataset : DATA_TABLE_V6_CHECK1_1P(변수탐색과정 결과 반영) 옵션 설정근거 ▪ 변수선택 과정에서 다중공성선을 고려해 변수를 임의적으로 제거하였으므로, “2요인 교호작용“ 옵션은 탐색적 모델링 과정에서 제외. ▪ 비선형성을 고려해 2,3차 식을 고려했으나, 변수간의 많은 조합과 조합에서의 반영비율을 해석할 수 없어 설명력이 낮다고 판단함. 결론적으로 “다항식 항, 다항식 차수“ 옵션 제외. ▪ 목표변수는 연속 형 변수이기 때문에 로지스틱 회귀(분류문제, 이항 형/순서 형 변수)가 아닌 일반 회귀 적용 20
  20. 모델링 : Decision Tree(개요) 4. 모델 적용/평가/보완 1. 의사결정나무 개요

    * 데이터분할/결측값처리 “회귀분석”과정과 동일 * input dataset : DATA_TABLE_V5_CHECK1_1P(변수탐색과정 결과 반영, 회귀모델링과 동일 데이터 셋) 모델 옵션 default 옵션 탐색 여부 옵션 탐색 유의성 비고 분리 규칙 (Splitting Rule) Interval 타겟 기준(Interval Target Criterion) PROBF 1 1 PROBF / VARIANCE Nominal 타겟 기준(Nominal Target Criterion) PROBCHISQ 1 0 Ordinal 타겟 기준(Ordinal Target Criterion) ENTROPY 1 0 유의수준(Significance Level) 0.2 1 0 결측값(Missing Values) USEINSEARCH 0 0 입력변수 한 번만 사용(Use Input Once) N 0 0 최대 가지(Maximum Branch) 2 1 1 2,3 최대 깊이(Maximum Depth) 6 1 1 6~10 최소 범주형 크기(Minimum Categorical Size) 5 0 0 노드(Nodes) 리프 크기(Leaf Size) 5 1 1 5,10,15 규칙 개수(Number of Rules) 5 0 0 대체 규칙 수(Number of Surrogate Rules) 0 0 0 분리 크기(Split Size) . 0 0 옵션 설정근거 ▪ 목표변수는 Interval 변수이므로 “Interval 타겟기준” 옵션을 설정함 ▪ Interval 변수 이외 “Nominal/Ordinal 타겟기준” 옵션과 분류기준의 “유의수준” 옵션의 변화를 고려해 보았으나, 결과에 영향을 미치지 않는 것을 확인함. ▪ 데이터 셋에 존재하는 결측 값을 처리한 데이터를 입력하기 때문에 “결측 값“ 옵션은 사용하지 않음. ▪ 더 나은 성능을 얻기 위해 “입력변수 한 번만 사용“ 옵션을 기본값인 N(아니요)으로 고정. ▪ 연속 형 변수의 분류를 다루는 문제이므로, “최대 가지“ 옵션을 3이상으로 설정한다면 유 효한 효과가 있을 것으로 예상 되어 탐색적 모델링 과정에서 “최대 가지“ 옵션 탐색. ▪ “최대 깊이“ 옵션과 “리프 크기” 옵션을 탐색적으로 적용해 ‘과적합’이 되지 않으면서 최고의 성능을 보이는 설정을 탐색. ① 1-2. 의사결정나무 옵션 탐색 개요 1-1. 의사결정나무 옵션 탐색 과정 ② ★ 별첨 참고 ③ ① 주요 옵션(가지, 깊이, 리프 크기) 외 옵션 유의성 탐색(내용 별첨 첨부) ② 주요 옵션 유의성 탐색 및 최적 모델에서의 옵션 조정(다음 슬라이드) ③ 최적 모델 성능 평가 및 트리 구조 해석(그 이후 슬라이드) 21
  21. 모델링 : Decision Tree(과정/결론) 4. 모델 적용/평가/보완 2. 의사결정나무 옵션

    탐색 과정 2-1. 가지(branch)/깊이(depth) 옵션 성능 비교 선행 노드 최대 가지 최대 깊이 Train:SSE Valid:SSE Test:SSE Train:RASE Valid:RASE Test:RASE Tree3 2 6 (default) 10069364 5512404 1776050 26.49419659 27.72171 27.25447 Tree8 3 6668417 3821334 1346770 21.56061312 23.08113 23.73323 Tree4 2 7 8779454 4865066 1608578 24.73907706 26.04318 25.93769 Tree9 3 5989459 3468143 1202480 20.43353621 21.98862 22.42587 Tree5 2 8 7678041 4361811 1443283 23.13529081 24.65943 24.56891 Tree10 3 5775656 3324572 1178184 20.0655187 21.52868 22.19815 Tree7 2 9 7056343 4076758 1370660 22.17887864 23.84004 23.94281 Tree11 3 5684762 3285759 1175559 19.90700348 21.40265 22.17341 Tree6 2 10 6619409 3868040 1301330 21.48124001 23.22175 23.32942 Tree12 3 5684762 3285759 1175559 19.90700348 21.40265 22.17341 선행 노드 리프크기 Train:SSE Valid:SSE Test:SSE Train:RASE Valid:RASE Test:RASE Tree15 5(default) 5684763 19.907 3285759 21.40265 1175559 22.17341 Tree13 10 5752074 20.02451 3312768 21.49043 1174170 22.16031 Tree14 15 5823516 20.14848 3408584 21.799 1197622 22.38051 2-2. 리프 크기(leaf size) 옵션 성능 비교(가지수 : 3, 깊이 : 9 기준) ▪ 가지(branch)는 기본값인 2보다 3에서 보편적으로 성능이 향상되는 것을 확인함. 지나치게 복잡한 tree는 새로운 자료에 적용될 때 예측오차가 커질 수(과적합 문제) 있어 다지 분리에서 최소 가지 수(3)을 최적 옵션값으로 지정. ▪ 깊이(depth)는 기본값이 6에서 깊이를 늘려갈 때마다 성능이 향상되지만 깊이 9에서 성능 이 정체되는 것을 확인 후 정체구간이 시작되는 깊이(9)를 최적 옵션값으로 지정 ▪ 리프 크기(leaf size)는 기본값을 기준으로 커질수록 성능이 떨어져 기본값 이용. ▪ 과적합을 고려해 Train/Valid./Test SSE와 RASE값의 차이를 확인함. 3. 의사결정나무 모델링 결과 3-1. 최적 모델의 옵션(분리규칙, 노드) 3-2. 최적 모델의 성능(SSE, RASE) * 모델링 과정 결론(각 방법론 최적모델 비교) – “Decision Tree 최적 모델” 사용 3-3. 최적 모델의 트리 해석 3-4. 모델링 트리 해석 결론 (다음 슬라이드 추가 설명) Vaild. SSE Test SSE Adj. R² Regression 6818865 2178917 0.9438 Decision Tree 3285759 1146403 - • 주제1에서는 환자수를 ‘예측‘하는 문제이므로, 새로운 입력변수의 데이터를 모델에 적용했을 때, 예측오차(지표는 SSE)를 최소화하는 모델이 가장 효과적인 모델. • 따라서, 회귀분석에서의 최적모델보다는 의사결정나무에서의 최적모델이 적절한 모델 이라고 판단할 수 있음. • 이 모델을 이용해 2014년 9월~12월(4개월) 각 구별 호흡기관련 내방 환자 수를 예측 하는데 사용할 수 있음. Cf) RASE : Root Average Squared Error 22
  22. 모델링 : Decision Tree(해석) 4. 모델 적용/평가/보완 3. 최적모델의 규칙(예시,

    별첨자료 참고) 선행 분류기준 영업여부에 따른 DATE_TYPE : 나머지 273 <= 구별 요양기관 수 65세 이상 인구비율 < 0.08576 최저기온 < 15.25 공기 질 변수 PM10 측정값 분류기준 < 22.9393 22.9393 <= 분류 값 190 246 선행 분류기준 영업여부에 따른 DATE_TYPE : 나머지 최저기온 < 12.65 0.00023 <= 공장비율 < 0.01531 143.5 <= 구별 요양기관 수 < 184 0.035788 <= 주거지비율 < 0.82639 공기 질 변수 O3 측정값 분류기준 < 0.0125 0.0125 <= < 0.02263 0.02263 <= 분류 값 144 169 151 선행 분류기준 영업여부에 따른 DATE_TYPE : 나머지 143.5<=구별 요양기관 수 < 189.5 공기 질 변수 NO2 측정값 분류기준 < 0.0165 0.0165 < < 0.0375 < 0.0375 분류 값 115 158 192 4. 공기 질과 호흡기 질환과의 관계 해석 공기 질 물질 고찰 및 특이사항 No2(이산화질소) 보편적으로 측정값이 높아질수록, 환자수 관측 값이 증가 하는 것으로 확인할 수 있음. O3(오존) 데이터 셋의 오존 농도의 분포가 굉장히 낮은 수치로 나왔기 때문에 실제 오존 농도의 상승과 호흡기 질환의 관계를 표현하기 힘들다고 판단. Co(일산화탄소) 타 공기 질에 비해 관측값 표본이 적지만, 보편적으로 양의 관계를 갖는 것을 확인할 수 있음. So(아황산가스) 호흡기질환 예측 과정에서 변수로서 고려하지 않음. 즉, 의미 있는 관계가 존재 하지 않다고 할 수 있음. Pm10(미세먼지) 선행분류기준에 따라 차이가 존재하지만, 보편적으로 측정값이 기준이상 넘어가면 관측 값이 감소 하는 것을 확인할 수 있음. 이는 타 공기 질에 비해 미세먼지는 보편적으로 사람들이 인식하고 있어 언론 노출 또한 잦으며, 경보예보에 주의하는 것을 통해 납득 할 수 있음(4.1 공기 질 키워드 월간조회수 참고) Pm25(초미세먼지) 물질 월간조회수 (PC+모바일) 이산화질소 1348 오존 9860 일산화탄소 4463 아황산가스 1159 미세먼지 1146101 초미세먼지 13083 4-1. 공기 질 키워드 월간조회수 4.1 Sources : NAVER 광고관리시스템 키워드검색광고(2015.8.27.) ★ 별첨 참조 23
  23. 요구조건 예측 5. 모델 활용 특정기간(서울 25개 구의 4개월)의 공기

    질에 따른 일별 호흡기 질환으로 내원한 환자수 예측 2012.1~4 2012.5~8 2012.9~12 2013 2014.1~4 2014.5~8 2014.9~12 * 제공 데이터셋의 시간흐름 A B A – label이 존재하는 모델링용 데이터 셋 B – label이 존재하지 않은 예측용 데이터 셋 스코어 결과 참조 24
  24. 예측모델 활용 5. 모델 활용 내방환자 예측 서비스(프리미엄) ▪ 공공데이터(대기환경정보,

    날씨정보, 지역특성정보) 입력 받아, 일일 호흡기질환 내방 환자수 예측. ▪ 단기적 관점에서 의료소모품 및 진료일정 조율에 반영 가능. ▪ 중장기적 관점에서 장비대여 및 인력계획 의사결정에 반영 가능. • 진료내역 및 예약 관리 • 세무 및 정산업무 자동화 • 기타 소규모 병원/의원 행정업무 보조 등등 요양기관 맞춤형 ERP 솔루션 의료서비스지원 통합솔루션 한계점 및 필요정보 ▪ 제한하는 모델링의 종속변수는 구/일 단위 호흡기질환 내방 환자수 ▪ 현재까지의 모델링 수준에서는 해당 지역구에 집계되는 요양기관수를 이용해 요양기관단위 평균적 예측 환자수를 제안할 수 밖에 없음. ▪ 즉, {해당일 지역구의 전체 호흡기질환 환자수}/{지역구의 요양기관수} ▪ 이를 보완하기 위해 각 지역구에서 호흡기관련 거래내역의 요양기관 점유율 정보가 필요로 함. ▪ 각 요양기관마다 점유율 정보를 이용해 더 정교한 예측이 가능할 것으 로 예상됨. ▪ 또한 심평원 데이터는 3% 표본 추출을 거쳐 제공되었으므로 실제 현실 에서의 등록 요양원수와 진료내역 데이터를 반영하면 더 정교한 예측이 가능할 것으로 예상함. Example. 요양기관 ID 11141342 일자 2015-09-01 일일 해당지역 예측 환자수 202.145 일일 해당병원 예측 환자수 2.0014 예측 오차 ± 0.2 해당 지역구 노원구 지역 내 요양기관수(2014) 101 모델 RASE(지역오차수준) 22.17341 * 모델 활용 서비스 제안 25
  25. 고객세분화 – 데이터 추출 6. 마케팅 기획 1. 설문지 데이터

    추출 : 변수목록 및 데이터탐색 추출 변수 유형 • 실내 외 공기 질에 대한 인식(A 변수) • 브랜드 및 제품에 대한 인식 및 태도(B 변수) • 가족 구성 문항(C 변수) • 응답자 정보(SQ, TYPE, G, 파생변수(블록처리)) 특이사항 • EG에서 응답 없음(99또는9) 값을 모두 결측 값 처리 • 입력변수의 분포(왜도) 고려해 표준화 옵션 설정 • 변수형식 : O – 순서 형, N – 명목 형, I – 연속 형(Interval) 1-1. 입력 변수의 분포 탐색 변수 명 레이블 응답 없음 형식 결측률 최소 최대 평균 A1 A1. 실내 공기질 우려도 9 O 0 1 7 3.277412 A2 A2. 실외 공기질 우려도 9 O 0 0 7 3.405702 A5 A5. 더 해로운 공기 타입 실외 공기질 vs. 실내 공기질 9 N 0 0 2 1.467105 B1 B1. 코웨이" 브랜드 선호도 O 0 2 7 5.501096 B2 B2. 코웨이" 브랜드 추천의향 O 0 1 7 5.422149 B3_1 B3. "코웨이" 브랜드 이미지 - (1) 전문적이다 9 O 0 2 7 5.710526 B3_2 B3. 코웨이" 브랜드 이미지 - (2) 프리미엄하다 9 O 0 0 7 5.390351 B3_3 B3. 코웨이" 브랜드 이미지 - (3) 젊다 9 O 0 0 7 5.037281 B3_4 B3. 코웨이" 브랜드 이미지 - (4) 신뢰할 수 있다 9 O 0 1 7 5.591009 B3_5 B3. 코웨이" 브랜드 이미지 - (5) 혁신적이다 9 O 0 1 7 5.163377 B4_1 B4. 생활 가전 제품 및 렌탈 서비스 제품 필요도 - (1) 정수기 9 O 0 0 7 5.621711 B4_2 B4. 생활 가전 제품 및 렌탈 서비스 제품 필요도 - (2) 공기청정기 9 O 0 0 7 5.424342 B5_1 B5. 코웨이" 제품 만족도 - (1) 정수기 9 O 39.80263 0 7 6.005464 B5_2 B5. 코웨이" 제품 만족도 - (2) 공기 청정기 9 O 38.92544 0 7 5.630162 B6 B6. 공기 청정기의 실내 공기질 개선 영향에 대한 인식 9 O 0 0 7 5.282895 B7_1 B7. 향후 1년 내 코웨이 제품 이용 의향 - (1) 정수기 9 O 0 0 99 61.38925 B7_2 B7. 향후 1년 내 코웨이 제품 이용 의향 - (2) 공기청정기 9 O 0 0 99 62.35307 C1 C1. 가족 구성원 수 9 I 0 0 7 3.64693 DE3 H3. 월 평균 소득 (세후 기준) 99 I 0 0 18 7.076754 G1 G1. [공기질 측정 서비스 컨셉 평가] 호감도 9 O 0 0 7 5.429825 G2 G2. [공기질 측정 서비스 컨셉 평가] 필요도 9 O 0 0 7 5.294956 G3 G3. [공기질 측정 서비스 컨셉 평가] New/차별도 9 O 0 0 7 5.503289 G4 G4. [공기질 측정 서비스 컨셉 평가] 이용 의향도 9 O 0 0 7 5.29386 MAX_AGE MAX_AGE. 나이 가장 많은 사람(C1-2) I 0.328947 0 94 44.19692 PA_COUNT PA_COUNT. 가족구성원 중 질환자 수 I 0 0 5 0.759868 SQ16_1 SQ16-1.자녀가 있습니까?(예, 아니오) N 37.39035 1 2 1.056042 SQ16_2_1 SQ16-2. - 1 자녀의 나이는 어떻게 됩니까? (가장어린자녀) I 40.89912 1 5 2.428571 SQ4 SQ4. 연령 99 I 0 0 59 38.73465 type 공기 청정기 보유 유무 N 0 1 3 1.520833 26
  26. 고객세분화 – 군집 분석 6. 마케팅 기획 2. 군집 분석

    : 고객 세분화 2-1. 군집 분석 노드 설정 * 분석 속성패널 변수 왜도(치우침)가 놓은 자료가 많아 내부표준화를 standardization 옵션 설정 * 결측 값 속성패널 일부 변수에서 ‘응답 없음’ 값을 9 또는 99 등의 dummy값으로 대체하였기 때문에 정보의 왜곡을 방지하기 위해 EG에서 삭제 이후 EM에서 결측 값 속성은 모두 ‘무시’ 설정 * 클러스터 선택기준 속성패널 군집의 수, 특성, CCC도표를 고려해 클러스터링 방법은 Ward 옵션 * 초기클러스터 난수 속성패널 군집간의 근접성을 고려해 적절히 떨어져 있는 초기 시드 값을 배정하기 위해 Full Replacement 옵션 2-2. 군집 분석 결과(CCC그래프, 세그먼트 크기, 입력 평균 그래프) 군집 6개 일 때, CCC 값 최대 군집의 특성을 파악(별첨 참조) 27
  27. 고객세분화 – 군집 해석 6. 마케팅 기획 3. 군집 해석

    : 고객 군 세분화 유형 1번 군집 : “싸고 좋은 게 좋아” 가족 구성원 중 환경성 질환자 수가 가장 많고, 가장 어린 자녀의 평균 연령도 가장 어려 공기 질에 대한 우려도가 가장 높은 군집. 공기 질 청정기 ‘보유 및 관리’ 하는 비율이 높고, 공기 질 측정 서비스 등 서비스에 긍정적. 그러나 브랜드 이미지에 대한 비교적 낮은 성향을 보이고, 월 평균 소득이 비교적 낮은 군집. 공기 청정기가 필요 하다 인식하고 있지만, 비슷한 수준의 제품/서비스에서 타사의 저가격 전 략에 이탈될 가능성이 높음. 4번 군집 : “공기청정기는 코웨이!” 가족 구성원 항목을 보면 어린 자녀 나이가 어리고, 최고령자 나이도 높은 편, 가족 구성원 수, 환경성 질환자 수도 대체적으로 많은 군집. 제품에 대한 필요도도 높은 편이고, 브랜드에 해한 이미지도 가장 긍정적. 또한 청정기 보유 및 관리 비율이 높은 편이라 핵심 고객 군집으로 판단됨. 2번 군집 : “다 필요 없어” 공기 질에 대한 인식, 청정기의 개선 효과, 브랜드 이미지, 브랜드 선호도 거의 대부분의 항목에서 가장 낮은 성향을 가진 군집으로 실내 외 공기 질 에 대한 우려도 또한 낮으며, 특히 실외 공기 질에 대한 우려도가 가장 낮음 따라서 공기 질, 제품 및 서비스, 브랜드 등에 대한 통합적인 인식 개선이 필요한 군집 5번 군집 : “믿을 수 있는 겨?” 응답자 연령이 가장 높은 군집으로 공기 질에 대한 우려도가 낮음. 브랜드에 대한 인식은 평균보다 긍정적이지만, 제품 및 서비스에 대한 필요도, 만족도, 구매 의향 에 대해 부정적인 성향. 특히 공기청정기에 대해 다소 부정적이고, ‘보유 및 관리’ 비율이 가장 낮은 군집. 따라서 공기 질과 공기 청정기 효과에 대한 인식 개선이 필요한 군집으로 보인다 3번 군집 : “그냥 쓰던 대로 쓸래” 모두 공기 청정기를 ‘보유 및 관리’ 하고 있는 군집으로, 브랜드에 대한 이미지, 공기 청정기에 대한 인식과 관련된 모든 설문에서 평균보다 긍정적인 성향을 가짐. 그러나, 공기 질 측정 서비스 컨셉 평가에 대해 다소 부정적인 성향을 가졌다는 것이 특징 6번 군집 : “역시 믿을 수 있는 거야?” 군집 중 가장 연령대가 낮으며(평균 34), 다른 군집들과 달리 자녀가 없는 것과 공기 질 우려도에 대해 실내 공기 질이 더 우려 된다고 응답한 것이 특징인 군집. 구성원 수, 질환자수 모두 가장 적으며, 브랜드 이 미지, 필요도, 만족도, 구매 의향이 모두 낮음. 공기 질에 대한 우려도가 낮고, 공기 청정기의 효과에 대해서 의구심을 갖는 군집. 제품, 브랜드 이미지 모두 부정적인 것으로 볼 때, 제품 효과에 대해 인식 개선이 필요한 군집 28
  28. 마케팅 전략방향 제시 6. 마케팅 기획 1. 군집 특징기준 분류

    1-1. 군집 분류별 마케팅전략 구조 a. 공기 질, 공기청정기 인식개선 전략(2, 3,5,6번 군집) b. 브랜드 차별화 전략(1, 2번 군집) 4번 군집 : “공기청정기는 코웨이!” (핵심고객, 이상적인 고객유형) 3번 군집 : “그냥 쓰던 대로 쓸래” 1번 군집 : “싸고 좋은 게 좋아” 2번 군집 : “다 필요 없어” b. a. 브랜드 충성도 공기질/공기청정기 효과인식 5번 군집 : “믿을 수 있는 겨?” 6번 군집 : “역시 믿을 수 있는 거야?” b. a. 공기 질, 공기청정기 인식개선 전략 공기청정기 보급(시장 확대)을 위해 기본적으로 공기 질과 공기 청정기에 대한 인식이 전제되어야 함. 군집 분석 결과 중 2번 5번 6번이 이에 대한 마케팅 전략이 필요한 군집으로, 특히 5번과 6번의 경우 가장 평균 연령이 높고(50세), 가장 평균 연령이 낮은(34세) 특징이 있기 때문에 연령 대별로 어떠한 커뮤니케이션 채널로 마케팅을 진행할 것 인가에 대한 고민이 필요. • 공기 질에 대한 위험성을 알려 소비자의 경각심을 일깨우도록 유도 • 공기청정기의 공기 질 개선효과(별첨 참조)를 알릴 수 있는 컨텐츠 통해 공기청정기의 필요성을 각인시키고자 함. a-1. 공기 질, 공기청정기 인식개선 전략 개요 a. 공기질 건강상의 위험성 인지 브랜드 신뢰/강화 공기 청정기 필요성 인식 a. b. 29
  29. 마케팅 전략방향 제시 6. 마케팅 기획 b. 브랜드 차별화 전략

    1번 군집은 공기 질의 중요성이나 공기청정기의 필요성에 대한 인식은 긍정적이나, 2번 군집과 함께 ‘코웨이’ 브랜드 이미지에 대해 상대적으로 부정적인 성향을 가진 군집. 따라서, 브랜드 충성도 확보를 목표로 차별화 전략이 필요로 함. 코웨이의 강점역량 중 하나인 방문판매원(코디)를 이용한 케어 서비스와 IOT기반 기술을 활용한 서비스가 필요로 할 것으로 예상. 기존 IoCare제품과 함께 제공되는 실내공기 관리서비스 플랫폼을 활용하여 실내 공기 질에 영향을 미칠 오염원(카펫, 커튼, 매트릭스 등)에 관리시점을 알려주고, 이에 대한 연계서비스를 제공해 지속적인 공기 질 관리를 돕는 제품-서비스 시스템 1. IoCare 제품을 이용하는 고객에 대해 기상정보, 계절정보, 실내 공기 질 정보와 함께 주요 오염원의 관리 시점에 대해 고객에게 안내(어플리케이션 팝업방식) 2. 고객은 알림을 받은 후, 세탁물 수거가능 시간대를 예약함. 3. 이때, 클린토피아와 같은 세탁업체와의 협약을 통해 세탁물은 세탁업체에 위탁. b-1. 서비스 프로세스 a-3. 인식개선 컨텐츠 예시 공기질 경보단계 알림 시스템 지하철/버스정류소 내 동영상 및 LED패널 매체를 이용해 해당 지역의 공기 질 정보를 [좋음/ 보통/ 나쁨]으로 구분하여 알리며 나쁜 공기 질 이 어떤 영향을 미치는지에 대한 언급. 3단계 알림 시스템으로 직관적 이며 지속적인 공기 질에 대한 관심 유도 가능. 다큐멘터리(실험) 공기 청정기 공기 질 개선 효과는 통계(과학)적으로 입증시킬 수 있으나, 그 정보를 그대로 대중에게 전할 수 없음. 이러한 측면에서 다큐멘터리는 TV가 가진 대중성과 청정기의 개선효과에 대한 정보 전달이 모두 가능하다는 장점이 있음. TV프로그램 PPL(요리프로그램) 요리프로그램 협찬을 통해 방송 중 자연스럽게 공기 청정기 가동 모습 을 노출시켜 요리로 인한 공기 질 오염(별첨 참조)을 개선시킬 수 있다는 이미지 연출. 이를 통해 공기 질에 대한 인식 및 제품에 대한 효과를 동시에 어필 가능. 30
  30. 각 변수 간 상관계수행렬 ▶ 별첨 DATE_ YEAR DATE_W EEKDAY

    DATE_TY PE COUNT_ YNO_H COUNT_ YNO_C COUNT_ YNO RAW_N O RAW_O3RAW_CORAW_SO RAW_P M10 RAW_P M25 CAI_NO CAI_SO CAI_CO CAI_O3 CAI_PM2 5 CAI_PM1 0 CAI1 CAI2 POPULA TION POP_DE NSITY POP_EL DERLY POP_RA TIO_ELD ERLY TEMP_M IN TEMP_A VG TEMP_M AX TEMP_R ANGE HUMI_M IN HUMI_A VG HUMI_M AX LAND_T OTAL LAND_R ATIO_FO REST LAND_R ATIO_PA RKING LAND_R ATIO_RO AD LAND_R ATIO_FA CTORY LAND_R ATIO_PA RK USE_RAT IO_DWE LL USE_RAT IO_COM MERCE USE_RAT IO_INDU STRY USE_RAT IO_GREE N DATE_YEAR 1 0.00156 -0.00623 -0.02212 -0.03349 -0.0233 0.08227 0.15698 -0.02999 0.0923 0.14218 0.10254 0.08265 0.09331 -0.02954 0.1448 0.09696 0.14304 0.15351 0.14119 -0.01242 -0.03354 0.14186 0.2688 0.06168 0.06337 0.0785 0.05618 0.02002 0.05685 0.08034 0.00006 -0.01116 0.01079 0.01535 -0.00767 0.09134 0.01261 -0.00016 -0.00396 -0.01296 DATE_WEEKDAY 1 0.68713 -0.00008 -0.00006 -0.00008 0.10817 -0.05166 0.03864 0.03403 0.03614 0.03805 0.1093 0.03466 0.03812 -0.04817 0.03588 0.03591 0.04261 0.04088 0.00005 0.00056 -0.00021 -0.00047 0.00614 0.0025 -0.01218 0.02927 0.03964 -0.00322 -0.02072 0 -0.00001 0.00001 0.00001 -0.00003 0.00012 0 0 0 0 DATE_TYPE 1 -0.00001 0.00019 0.00001 0.17348 -0.09828 0.07623 0.06317 0.07752 0.07585 0.17408 0.06395 0.07584 -0.09416 0.06884 0.07448 0.08579 0.08089 0.00015 0.00067 -0.0009 -0.00183 0.016 0.01079 -0.00531 -0.00187 0.01691 0.03263 -0.01667 0 0.00008 -0.00008 -0.00013 0 -0.00065 -0.00014 0 0.00004 0.00015 COUNT_YNO_H 1 0.78058 0.99892 0.02884 0.00424 0.03411 -0.0116 0.00945 0.00995 0.02886 -0.01224 0.03406 -0.00105 0.01088 0.00863 0.01001 0.01105 0.8122 0.00267 0.63283 -0.64961 0.00416 0.00326 0.007 0.01099 0.02701 0.01956 0.01792 0.71453 -0.05119 0.05122 0.12767 -0.35303 0.22032 -0.09413 -0.16477 -0.13239 0.22309 COUNT_YNO_C 1 0.80874 0.018 0.0064 -0.00452 0.01818 0.01035 0.01409 0.01836 0.01736 -0.00447 -0.00056 0.01445 0.00934 0.00881 0.0097 0.58693 0.03753 0.47788 -0.44215 -0.0006 -0.00081 0.00031 0.00334 0.04069 0.03183 0.02378 0.49465 -0.08767 0.11872 0.1354 -0.23984 0.0276 -0.08454 -0.16604 -0.20825 0.09073 COUNT_YNO 1 0.02848 0.00446 0.03178 -0.00957 0.00967 0.01041 0.02853 -0.01023 0.03173 -0.00103 0.01131 0.00881 0.01007 0.01112 0.80783 0.0053 0.63095 -0.64409 0.00387 0.003 0.00661 0.01059 0.02843 0.02076 0.01862 0.70908 -0.05467 0.05701 0.13019 -0.34851 0.20937 -0.09485 -0.16737 -0.13911 0.21683 RAW_NO 1 -0.42227 0.68233 0.53346 0.56087 0.56331 0.99917 0.53443 0.6818 -0.45212 0.55752 0.53047 0.59653 0.57112 -0.01523 -0.03079 -0.02687 0.00651 -0.45558 -0.45339 -0.42949 0.18176 -0.20037 -0.26387 -0.10049 0.0192 -0.04417 -0.01334 0.04793 0.01334 0.00265 0.01894 0.06387 -0.01746 -0.01892 RAW_O3 1 -0.36635 -0.14123 0.05088 0.01748 -0.423 -0.14106 -0.36651 0.98465 0.0071 0.04784 0.01719 -0.01169 0.03114 0.01808 0.05259 0.01487 0.44908 0.46895 0.49399 0.23331 -0.0209 0.03611 -0.01482 0.01134 0.04185 0.01924 -0.02267 -0.02381 0.01494 0.00062 -0.03224 -0.03214 0.00903 RAW_CO 1 0.54682 0.60761 0.64691 0.68098 0.54722 0.99914 -0.41284 0.63902 0.58272 0.60593 0.60434 0.06233 0.0454 0.05913 -0.06551 -0.53182 -0.5372 -0.51541 0.04696 -0.14872 -0.12234 -0.02589 0.02479 -0.0323 -0.03119 0.02359 0.00308 -0.03181 -0.00922 -0.02673 0.12075 -0.03006 RAW_SO 1 0.6311 0.61927 0.53316 0.99886 0.54647 -0.1758 0.61295 0.61012 0.60113 0.59434 -0.01041 0.00757 -0.01994 -0.00169 -0.45624 -0.45872 -0.43989 0.09453 -0.19161 -0.21056 -0.17289 0.01522 -0.02234 0.03223 0.00205 0.07373 0.02833 -0.0355 0.04122 -0.01029 -0.02687 RAW_PM10 1 0.89966 0.55973 0.63162 0.60696 0.00651 0.88816 0.98421 0.94347 0.91272 0.00299 0.00703 0.00372 -0.00567 -0.31666 -0.30908 -0.2667 0.19578 -0.2037 -0.13741 -0.07941 0.00794 -0.01812 0.00659 0.01248 0.00084 0.02636 -0.01963 -0.00986 0.01286 0.00769 RAW_PM25 1 0.56186 0.61992 0.64609 -0.02934 0.98328 0.87213 0.86092 0.85877 0.00785 0.04045 0.00227 -0.01961 -0.26908 -0.2673 -0.23162 0.11977 -0.14075 -0.0542 0.01255 -0.01123 -0.01215 0.02568 0.02264 0.03218 0.03573 0.00927 -0.02381 0.00512 -0.02516 CAI_NO 1 0.53409 0.68044 -0.45278 0.55553 0.52867 0.59395 0.56648 -0.01559 -0.03133 -0.02737 0.00669 -0.45699 -0.45461 -0.43074 0.18293 -0.20207 -0.26581 -0.10062 0.01932 -0.04355 -0.0136 0.04817 0.01302 0.00158 0.01807 0.06451 -0.01595 -0.01809 CAI_SO 1 0.54684 -0.17571 0.61327 0.61039 0.60144 0.5945 -0.01042 0.0068 -0.01972 -0.00104 -0.45607 -0.45855 -0.43984 0.09456 -0.19071 -0.2097 -0.17238 0.01586 -0.02275 0.03249 0.00141 0.07368 0.02833 -0.03555 0.04137 -0.01208 -0.02668 CAI_CO 1 -0.41295 0.63823 0.58216 0.60542 0.6039 0.06216 0.04552 0.05915 -0.06504 -0.53177 -0.53716 -0.51534 0.04678 -0.14852 -0.12214 -0.02594 0.02454 -0.032 -0.03116 0.02371 0.00291 -0.03179 -0.0086 -0.02656 0.12018 -0.03025 CAI_O3 1 -0.03573 0.00537 -0.03336 -0.0582 0.02765 0.01479 0.0487 0.01557 0.46424 0.48504 0.51125 0.23279 -0.02519 0.04119 -0.01823 0.01 0.04685 0.0178 -0.02742 -0.01933 0.01072 -0.00203 -0.03188 -0.02808 0.01175 CAI_PM25 1 0.8792 0.86489 0.86899 0.00919 0.04114 0.00289 -0.0227 -0.27844 -0.27697 -0.24226 0.12463 -0.14411 -0.07326 -0.005 -0.01054 -0.01124 0.025 0.02156 0.03211 0.03384 0.00721 -0.02521 0.00824 -0.02425 CAI_PM10 1 0.9642 0.94224 0.00265 0.00581 0.0053 -0.00205 -0.30131 -0.29478 -0.2532 0.18547 -0.18962 -0.12905 -0.07746 0.00763 -0.01616 0.00618 0.01118 -0.00027 0.02519 -0.01862 -0.00903 0.01109 0.00794 CAI1 1 0.97427 -0.00068 0.00722 0.00197 0.00251 -0.30089 -0.29481 -0.254 0.17202 -0.18481 -0.12616 -0.0578 0.00477 -0.01823 0.00287 0.01883 0.00839 0.02454 -0.00093 0.00069 -0.00247 -0.00729 CAI2 1 0.0017 0.00711 0.00425 0.00173 -0.28877 -0.285 -0.24571 0.14744 -0.16207 -0.10305 -0.04643 0.00556 -0.0177 0.00542 0.0178 0.00565 0.02526 -0.00121 0.00073 -0.00606 -0.00615 POPULATION 1 0.26095 0.89196 -0.69289 0.00272 0.00367 0.0104 0.02741 0.03399 0.04248 0.05561 0.65321 0.02839 0.21136 -0.15041 -0.34885 0.21062 -0.08692 -0.49411 -0.43193 0.23514 POP_DENSITY 1 0.22677 -0.31366 -0.01986 -0.02113 -0.02138 -0.00868 -0.01004 -0.00597 0.00734 -0.50785 -0.31924 0.42079 0.38913 0.05227 0.40415 0.59408 -0.3168 -0.16832 -0.65569 POP_ELDERLY 1 -0.32454 0.02748 0.02699 0.03052 0.0145 0.06776 0.08255 0.08705 0.56365 0.21628 0.05304 -0.35214 -0.42659 0.02773 -0.03804 -0.54041 -0.34206 0.2318 POP_RATIO_ELDE RLY 1 0.03917 0.03783 0.03311 -0.01595 0.04441 0.0496 0.03243 -0.41833 0.27593 -0.32176 -0.20297 -0.08744 -0.35559 0.11801 0.37433 0.25734 -0.06575 TEMP_MIN 1 0.99261 0.93879 0.00699 0.3918 0.38685 0.31447 0.0086 -0.00552 -0.00554 -0.00242 0.00432 0.00365 -0.00386 -0.01086 0.01334 0.00094 TEMP_AVG 1 0.95187 0.02847 0.3295 0.37005 0.30954 0.00911 -0.00432 -0.00174 -0.00072 -0.00063 0.00692 -0.00171 -0.00882 0.00086 0.00235 TEMP_MAX 1 0.10457 0.26633 0.33736 0.30272 0.01217 -0.00632 0.00502 0.00505 -0.00471 0.01795 0.0017 -0.00396 -0.01167 0.00274 TEMP_RANGE 1 -0.13936 -0.20189 -0.12731 0.01387 -0.00319 0.03637 0.02576 -0.03585 0.04994 0.01906 0.02282 -0.10276 0.00667 HUMI_MIN 1 0.43913 0.30057 0.00917 0.01427 -0.03937 -0.03577 -0.01485 -0.01396 -0.02419 -0.01773 0.07304 0.00341 HUMI_AVG 1 0.59492 0.00571 0.0146 -0.0365 -0.04288 -0.00412 -0.0044 -0.03329 -0.02475 0.06534 0.00502 HUMI_MAX 1 0.00183 0.00126 -0.02652 -0.03201 -0.00178 0.01754 -0.02939 -0.02193 0.04911 -0.0012 LAND_TOTAL 1 0.25283 -0.13209 -0.38389 -0.30335 -0.14125 -0.48041 -0.24547 -0.28329 0.66564 LAND_RATIO_FO REST 1 -0.20584 -0.70844 -0.0522 -0.50192 -0.27299 -0.18579 -0.23847 0.52027 LAND_RATIO_PA RKING 1 0.30163 -0.21029 0.52656 0.14246 0.00795 -0.72606 -0.07672 LAND_RATIO_RO AD 1 0.04271 0.48887 0.42577 0.50078 0.36277 -0.66228 LAND_RATIO_FA CTORY 1 -0.33073 -0.24177 -0.14994 0.59274 -0.32187 LAND_RATIO_PA RK 1 0.25299 0.06249 -0.42425 -0.15879 USE_RATIO_DWE LL 1 0.01397 -0.6433 -0.76262 USE_RATIO_COM MERCE 1 0.37672 -0.07097 USE_RATIO_INDU STRY 1 -0.48289 USE_RATIO_GREE N 1 32
  31. 탐색적 변수 선택 과정 – 상관 계수 고려법과 후진 제거

    ▶ 별첨 변수 선택 방법 상관계수 기준 SSE : Train SSE : Valid. SSE : Test 상관계수 고려 0.7 14285864 7315528 2370596 상관계수 고려 0.65 14421622 7386324 2364467 후진 제거 변수 선택 상관 계수 고려 변수 선택 후진 제거 Reg01 1.33E+07 6790701.99 2178739.28 후진 제거 Reg02 1.31E+07 6791104.949 2377257.571 후진 제거 Reg03 1.34E+07 6568162.717 2263994.029 후진 제거 Reg04 1.32E+07 6765103.342 2337370.737 후진 제거 Reg05 1.34E+07 6683073.472 2247056.272 후진 제거 Reg06 1.34E+07 6703381.206 2161063.004 후진 제거 Reg07 1.32E+07 6807119.448 2271179.789 후진 제거 Reg08 1.33E+07 6582771.546 2405695.8 후진 제거 Reg09 1.33E+07 6677811.387 2296654.589 후진 제거 Reg10 1.34E+07 6583593.885 2300309.489 후진 제거 Reg11 1.32E+07 6845238.316 2237087.463 후진 제거 Reg12 1.33E+07 6696038.821 2335761.292 후진 제거 Reg13 1.33E+07 6685987.596 2294817.746 후진 제거 Reg14 1.33E+07 6756742.608 2195957.789 후진 제거 Reg15 1.32E+07 6751301.772 2348348.936 각 방법 별 최고 성능 모델 33
  32. 탐색적 변수 선택 과정 전진 선택과 단계별 선택 ▶ 별첨

    전진 선택 변수 선택 전진 선택 Reg16 1.33E+07 6793622.559 2177217.31 전진 선택 Reg17 1.34E+07 6577336.262 2299889.418 전진 선택 Reg18 1.32E+07 6849039.185 2239427.737 전진 선택 Reg19 1.33E+07 6695045.257 2334962.667 전진 선택 Reg20 1.33E+07 6691709.246 2299705.87 전진 선택 Reg21 1.33E+07 6755528.51 2195939.215 전진 선택 Reg22 1.32E+07 6760038.169 2350117.984 전진 선택 Reg23 1.31E+07 6794142.086 2376525.151 전진 선택 Reg24 1.34E+07 6568176.924 2268690.563 전진 선택 Reg25 1.32E+07 6767045.712 2336354.213 전진 선택 Reg26 1.34E+07 6682577.705 2246857.35 전진 선택 Reg27 1.34E+07 6705248.918 2159470.259 전진 선택 Reg28 1.32E+07 6811621.195 2271896.953 전진 선택 Reg29 1.33E+07 6589471.822 2409082.555 전진 선택 Reg30 1.33E+07 6674002.267 2295760.806 단계별 선택 변수 선택 단계별 선택 Reg31 1.52E+07 7811548.686 2537471.873 단계별 선택 Reg32 1.53E+07 7657083.194 2599405.454 단계별 선택 Reg33 1.53E+07 7727634.516 2535856.618 단계별 선택 Reg34 1.52E+07 7692169.727 2594276.079 단계별 선택 Reg35 1.53E+07 7622326.308 2636520.016 단계별 선택 Reg36 1.53E+07 7689648.471 2514982.311 단계별 선택 Reg37 1.52E+07 7715948.248 2630017.442 단계별 선택 Reg38 1.51E+07 7746866.616 2694241.974 단계별 선택 Reg39 1.54E+07 7542092.761 2584485.451 단계별 선택 Reg40 1.51E+07 7752938.661 2634145.265 단계별 선택 Reg41 1.53E+07 7663985.667 2540335.734 단계별 선택 Reg42 1.53E+07 7682992.564 2495558.423 단계별 선택 Reg43 1.51E+07 7765284.746 2625098.459 단계별 선택 Reg44 1.52E+07 7576155.969 2699731.582 단계별 선택 Reg45 1.51E+07 7707436 2634121 34
  33. 모델 탐색 결과 ▶ 별첨 Interval 타겟 기준 Nominal 타겟

    기준 Ordinal 타겟 기준 Train: Sum of Squared Errors Valid: Sum of Squared Errors Test: Sum of Squared Errors Variance ProbChi Entropy 1.15E+07 5700485.913 2102260.352 Variance Entropy Entropy 1.15E+07 5700485.913 2102260.352 Variance Gini Entropy 1.15E+07 5700485.913 2102260.352 ProbF ProbChi Entropy 1.15E+07 5702245.419 2102385.536 ProbF Entropy Entropy 1.15E+07 5702245.419 2102385.536 ProbF Gini Entropy 1.15E+07 5702245.419 2102385.536 타겟 기준 변경에 따른 성능 변화 => interval에 대한 파라미터만 영향을 미침 Interval 타겟 기준 유의수준 Train: Sum of Squared Errors Valid: Sum of Squared Errors Test: Sum of Squared Errors Variance 10 1.15E+07 5700485.913 2102260.352 Variance 20 1.15E+07 5700485.913 2102260.352 Variance 30 1.15E+07 5700485.913 2102260.352 ProbF 10 1.15E+07 5702245.419 2102385.536 ProbF 20 1.15E+07 5702245.419 2102385.536 ProbF 30 1.15E+07 5702245.419 2102385.536 유의 수준 기준 변경에 따른 성능 변화 =>유의수준 옵션의 결과에 대한 영향력 없음 의사결정나무 옵션 탐색 결과 35
  34. 모델 탐색 결과 (2) Interval 타겟 기준 / 최대 가지

    / 최대 깊이 조정에 따른 성능 변화 Interval 타겟 기준 최대 가지 최대 깊이 Train: Sum of Squared Errors Valid: Sum of Squared Errors Test: Sum of Squared Errors Variance 3 7 6976833.51 3741728.833 1351607.289 Variance 3 6 7607342.758 3890308.51 1404406.247 Variance 3 5 8645491.439 4343110.592 1596047.96 Variance 2 7 9777454.682 4903861.38 1744398.602 Variance 3 4 1.05E+07 5309405.05 1952089.754 Variance 2 6 1.15E+07 5702245.419 2102385.536 Variance 3 3 1.34E+07 6483538.226 2361579.565 Variance 2 5 1.34E+07 6556719.304 2362405.239 Variance 2 4 1.85E+07 9294235.803 3244174.914 ProbF 3 6 7607342.758 3890308.51 1404406.247 ProbF 3 5 8645491.439 4343110.592 1596047.96 ProbF 2 7 9777454.682 4903861.38 1744398.602 ProbF 3 4 1.05E+07 5309405.05 1952089.754 ProbF 2 6 1.15E+07 5702245.419 2102385.536 ProbF 3 3 1.34E+07 6483538.226 2361579.565 ProbF 2 5 1.34E+07 6556719.304 2362405.239 ProbF 2 4 1.85E+07 9294235.803 3244174.914 ProbF 2 3 2.43E+07 1.23E+07 4192636.51 ▶ 별첨 36
  35. 최종 의사결정나무 모델의 공기 질 관련 규칙 미세먼지 관련 규칙

    선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 나머지 273 <= 구별 요양기관 수 65세 이상 인구비율 < 0.08576 최저기온 < 15.25 공기질 변수 PM10 측정값 분류 기준 < 22.9393 22.9393 <= 분류값 190 246 선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 나머지 184 <= 구별 요양기관 수 < 249.5 공원비율 < 0.0072 최저기온 < 12.65 0.12754 <= 65세 이상 인구비율 54563 <= 65세 이상 고령자 수 0.35788 <= 주거지비율 < 0.82639 공기질 변수 PM10 측정값 분류 기준 < 27 27 <= 분류값 237 189 선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 나머지 0.00099 <= 주차장비율 구별 요양기관 수 <143.5 18.45 <= 최저기온 < 22.05 공기질 변수 PM10 측정값 분류 기준 <12.5 12.5 <= < 33.5 <= 33.5 분류값 49 67 58 선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 나머지 0.0076 < 주차장비율 < 0.00099 요일변수 : 4, 5, 6, 3 0.39125 <= 숲 비율 구별 요양기관 수 <143.5 18.45 <= 최저기온 <=22.25 공기질 변수 PM25 측정값 분류 기준 < 16.5 16.5 < 분류값 73 50 선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 나머지 최저기온 < 12.65 48267 <= 65 세 이상 고령자 수 < 54563 184 <= 구별 요양 기관 수 < 249.5 0.35788 <= 주거지 비율 < 0.82639 공기질 변수 PM25 측정값 분류 기준 < 14 14 < 분류값 226 183 선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 주말 포함 공휴일 요일변수 : 5 최저기온 < 6.6 37849 <= 65세 이상 고령자 수 < 60544.5 공기질 변수 PM25 측정값 분류 기준 < 23.5 23.5 <= 분류값 35 18 초미세먼지 관련 규칙 ▶ 별첨 37
  36. 최종 의사결정나무 모델의 공기 질 관련 규칙 이산화질소 관련 규칙

    선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 주말 포함 공휴일 요일변수: 6, 3 최저기온 < 6.6 37849 <= 65세 이상 고령자 수 < 60544.5 0.35788 < 주거지비율 공기질 변수 NO2 측정값 분류 기준 < 0.0245 0.0245 <= 분류값 17 7 선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 공휴일 다음 날 0.00049 <= 공장비율 143.5 <= 구별 요양기관 수 < 189.5 공기질 변수 NO2 측정값 분류 기준 < 0.0475 0.0475 <= < 0.0575 0.0575 <= 분류값 212 263 204 선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 나머지 143.5<=구별 요양기관 수 < 189.5 공기질 변수 NO2 측정값 분류 기준 < 0.0165 0.0165 < < 0.0375 < 0.0375 분류값 115 158 192 선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 나머지 143.5 <= 구별 요양기관 수 < 273 0.0003 <= 공장비율 65세이상 고령자 수 < 50533 24.85 <= 최저기온 공기질 변수 CO 측정값 분류 기준 < 0.35 <= 0.35 분류값 70 81 선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 주말 포함 공 휴일 65세이상고령자 수 < 37849 숲비율 < 0.01664 0.35788 <= 주거지비율 0.01236 <= 상업지역 비율 < 0.0425 공기질 변수 CO 측정값 분류 기준 < 0.62115 0.62115 <= 분류값 11 24 일산화탄소 관련 규칙 ▶ 별첨 38
  37. 최종 의사결정나무 모델의 공기 질 관련 규칙 오존 관련 규칙

    선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 나 머지 최저기온 < 12.65 0.00023 <= 공장비율 < 0.01531 143.5 <= 구별 요양기관 수 < 184 0.035788 <= 주거지비율 < 0.82639 공기질 변수 O3 측정값 분류 기준 < 0.0125 0.0125 <= < 0.02263 0.02263 <= 분류값 144 169 151 선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 나 머지 143.5 <= 구별 요양기관 수 < 273 평균습도 <54.5258 19.05 < 최저기온 <21.85 65세이상 고령자 수 < 50533 공기질 변수 O3 측정값 분류 기준 <0.0225 0.0225 <= 분류값 160 109 선행 분류기준 (주말 포함 공휴일), (공휴일 다음날), 나머지 : 나 머지 19.05 <= 최저기온 < 21.25 65세이상인구비율 < 0.10631 65세이상 고령자 수 >= 60038.5 143.5 <= 구별 요양기관 수 < 273 공기질 변수 O3 측정값 분류 기준 < 0.0265 0.0265 <= 분류값 166 124 ▶ 별첨 39
  38. 최종 의사결정나무 모델의 공기 질 관련 규칙 – 오존 추가

    설명 오존은 호흡기 건강에 악영향을 준다는 연구 결과. (조수헌, 서울 대기 중 오존에 의한 건강영향) (최 현, 인천지역의 대기 오염과 호흡기 질환으로 인하대병원 응급실을 방문한 소아의 내원 건수와의 상호 관계에 대한 연구) (이종태, 소아 아토피 및 천식관련 입원과 대기 중 오존의 상관성 분석) 서울특별시 대기환경정보(http://cleanair.seoul.go.kr/inform.htm?method=standards)에 따르면 오존 의 24시간 평균치의 국가/ 서울시 기준은 0.1ppm인데 모델링에 사용한 자료(raw_data_table_v6_date_check1_1) 의 오존 농도 분포는 평균 0.023/ 표준편차 0.0128 로 전체적으로 굉장히 낮은 수치로 분포한다. 이는 모델의 오존 규칙이 실제 오존과 호흡기의 관계를 제대로 표현할 수 없다 판단할 수 있다. ▶ 별첨 40
  39. 코웨이 설문지 분석 ▶ 별첨 순서 실내 공기 질 데이터

    분석 1. TYPE(공기청정기 보유 여부)에 따른 고객 별 실내 공기 질 분석 설문조사 + 실내 공기 질 데이터 분석 1. 쿡탑 종류 및 사용 시간에 따른 실내 공기 질 분석 2. 어린 자녀가 있는 고객 중 공기청정기 있는 집과 없는 집의 공기 질 차이 3. 흡연자와 관련 된 실내 공기 질 분석 41
  40. 청정기보유여부에 따른 실내 공기 질 비교 ▶ 별첨 일반먼지, 미세먼지,

    초미세먼지 등분산성 기각 일산화탄소, 이산화탄소 등분산성 기각 못함 ANOVA 등분산검정 TYPE에 따른 실내 공기 질 비교 일반먼지, 미세먼지, 초미세먼지 – 보유여부에 따라 차이가 있다 Welch의 분산가중 ANOVA 42
  41. 청정기보유여부에 따른 실내 공기 질 비교 ▶ 별첨 일산화탄소, 이산화탄소

    – 보유여부에 따른 차이가 없다 ANOVA분석 일산화탄소 P-VALUE가 유의수준(0.05)보다 높다 따라서 공기 청정기 보유 형태에 따라 일산화 탄소 농도 차이가 없다 이산화탄소 P-VALUE가 유의수준(0.05)보다 높다 따라서 공기 청정기 보유 형태에 따라 이산화 탄소 농도 차이가 없다 43
  42. 청정기보유여부에 따른 실내 공기 질 비교 ▶ 별첨 T –

    TEST 공기 청정기 보유 여부에 따른 실내 공기 질 비교 일반먼지, 미세먼지, 초미세먼지 모두 등분산성을 기각하고, 차이가 없다는 귀무가설을 기각 한다. 따라서 공기청정기 보유고객과 미 보유 고객의 일반먼지, 미세먼지, 초미세먼지 밀도 차이가 있다. 일산화탄소, 이산화탄소 일산화탄소는 등분산성기각, 이산화탄소는 기각 할 수 없고, 모 두 차이가 있다는 귀무가설을 기각 할 수 없다 따라서 공기청정기 보유고객과 미 보유 고객의 일산화탄소, 이 산화탄소 농도 차이는 없다 44
  43. 청정기보유여부에 따른 실내 공기 질 비교 ▶ 별첨 T –

    TEST 청정기 보유 고객 중 관리하는 고객과 관리하지 않는 고객 일반먼지, 미세먼지, 초미세먼지 모두 등분산성을 기각하고, 차이가 없다는 귀무가설을 기각 한다. 따라서 공기청정기 보유 고객 중 관리하는 고객과 아닌 고객의 일반먼지, 미세먼 지, 초미세먼지 밀도 차이가 있다. 일산화탄소, 이산화탄소 일산화탄소는 등분산성기각, 이산화탄소는 기각 할 수 없고, 모두 차이가 있다는 귀무가설을 기각 할 수 없다 따라서 공기청정기 보유고객과 미 보유 고객의 일산화탄소, 이산화 탄소 농도 차이는 없다 45
  44. 청정기보유여부에 따른 실내 공기 질 비교 ▶ 별첨 T –

    TEST 청정기 보유 고객 중 관리하는 고객과 미 보유 고객 일반먼지, 미세먼지, 초미세먼지 모두 등분산성을 기각하고, 차이가 없다는 귀무가설을 기각 한다. 따라서 공기청정기 보유 고객 중 관리하는 고객과 미 보유 고객의 일반먼지, 미 세먼지, 초미세먼지 밀도 차이가 있다. 일산화탄소, 이산화탄소 모두 등분산성을 기각 할 수 없고, 차이가 있다는 귀무가설도 기 각 할 수 없다 따라서 공기청정기 관리하는 고객과 미 보유 고객의 일산화탄 소, 이산화탄소 농도 차이는 없다 46
  45. 쿡탑 종류 및 사용 시간에 따른 실내 공기 질 분석

    쿡탑 종류에 따른 실내 공기 질 차이 D10_1. 주방 이용 행태 현 이용 쿡탑 종류 1. 가스레인지 2. 전기레인지 사용하는 쿡탑에 따라 실내 공기 질 차이가 있는지 확인하기 위해 두 쿡탑 모두 사용하는 고객(D10_1에서 1번으로 답하고, D10_2에서 2번으로 답한 고객)은 제외하고 T-TEST실행 ▶ 별첨 47
  46. 쿡탑 종류 및 사용 시간에 따른 실내 공기 질 분석

    T-TEST 이용 쿡탑 종류에 따른 실내 공기 질 일반먼지 등분산성을 기각하고, 차이가 없다는 귀무가설을 기각 한다. 따라서 이용 쿡탑 종류에 따라 일반먼지밀도차이가 있다 순서대로 미세먼지, 초미세먼지, 일산화탄소, 이산화탄소 모두 등분산성을 기각 할 수 없고, 차이가 있다는 귀무가설도 기각 할 수 없다 따라서 공기청정기 관리하는 고객과 미 보유 고객의 미세먼지, 초미세먼지, 일산화탄소, 이산화탄소 농 도 차이는 없다 ▶ 별첨 48
  47. 쿡탑 종류 및 사용 시간에 따른 실내 공기 질 분석

    쿡탑 이용 시간대에 따른 공기 질 차이 D11_1~3. 쿡탑 이용 시간 1. 오전 2. 오후 3. 저녁 9. 거의 사용 안 함 쿡탑 이용 시간에 대한 설문문항 규칙 1. 이용 시간대에 대해 4가지 답변을 할 수 있고, 중복답변은 최대 3개까지 할 수 있다(D11_1~ D11_3) 2. D11_1은 1,2,3,9 모든 문항이 답변으로 오지만 D11_2는 2와3 D11_3은 3만 답할 수 있다. =>D11_1 문항의 답변 번호가 D11_2의 문항의 답변 번호 보다 작고, D11_2문항의 답변 번호는 D11_3보다 작다 시간대 이용고객 정의 오전 D11_1에서 1이라 답한 고객 오후 D11_1 또는 D11_2에서 2라 답한 고객 저녁 D11_3 답변 값이 비 결측 치 인 고객, D11_1과 D11_2에서 3이라 답한 고객 ▶ 별첨 49
  48. 쿡탑 종류 및 사용 시간에 따른 실내 공기 질 분석

    오전 쿡탑 사용 고객과 사용 하지 않는 고객 일산화탄소 등분산성을 기각하고, 차이가 없다 는 귀무가설을 기각 한다. 따라서 이용 쿡탑 종류에 따라 일 산화탄소 밀도차이가 있다 일반먼지, 미세먼지, 초미세먼지, 이산화탄소 미세먼지와 초미세먼지에서 등분산성을 기각하고, 일반먼지와 이산화탄소에서 기각하지 않는다. 차이가 있다 는 귀무가설은 모두 기각 할 수 없다 따라서 오전 시간대 쿡탑 사용 고객과 사용 하지 않는 고객의 일반먼지, 미세먼지, 초미세먼지, 이산화탄소 농 도 차이는 없다 ▶ 별첨 50
  49. 쿡탑 종류 및 사용 시간에 따른 실내 공기 질 분석

    오후 쿡탑 사용 고객과 사용 하지 않는 고객 일반먼지, 일산화탄소, 이산화탄소 일산화탄소가 등분산성을 기각하고, 일반먼지, 이산화탄소는 기각하지 못한다. 차이가 있다는 귀무가설은 모두 기각 한다. 따라서 오후 시간대 쿡탑 사용 고객과 사용 하지 않는 고객의 일반먼지, 일산화탄소, 이산화탄소 농도 차이가 있다. ▶ 별첨 51
  50. 쿡탑 종류 및 사용 시간에 따른 실내 공기 질 분석

    미세먼지, 초미세먼지 미세먼지, 초미세먼지는 등분산성을 기각하지 못한다. 차이가 있다는 귀무가설은 모두 기각 한다. 따라서 오후 시간대 쿡탑 사용 고객과 사용 하지 않는 고객의 미세먼지, 초미세먼지 농도 차이는 없다 오후 쿡탑 사용 고객과 사용 하지 않는 고객 ▶ 별첨 52
  51. 쿡탑 종류 및 사용 시간에 따른 실내 공기 질 분석

    저녁 쿡탑 사용 고객과 사용 하지 않는 고객 일반먼지, 미세먼지, 초미세먼지, 일산화탄소, 이산화탄소 일산화탄소는 등분산성을 기각하고, 나머지는 기각할 수 없다. 차이가 없다는 귀무 가설을 모두 기각 하지 못한다. 따라서 저녁 시간대 쿡탑 사용 고객과 사용 하지 않는 고객의 실내 공기 질 차이는 통계적으로 없다. ▶ 별첨 53
  52. 어린 자녀가 있는 고객 중 공기청정기 있는 집과 없는 집의

    공기 질 차이 아이 건강이 염려되어서라고 답한 고객 중 가장 어린 자녀의 연 령에 대한 설문 조사결과 영유아 자녀가 있는 고객의 비율이 가 장 높았다 반대로 영유아 자녀가 있는 집에서 실내 공기 질에 대한 우려가 가장 높은 이유를 확인해본 결과 아이 건강이 염려 되어서라는 답변이 가장 높다 A1_1_1실내 공기 질 우려 이유 1. 2 먼지가 많아서/먼지가 자주 많이 쌓여서 2. 1 환기가 잘 안돼서/환기가 안 되는 구조라서 3. 212 아이 건강이 염려되어서 4. 64 환기를 자주 못해서 5. 100 미세 먼지/황사 때문에 6. 101 공기 오염이 심각해서 7. 200 겨울에는 환기를 자주 못해서 영유아 자녀가 있는 고객 188명 중 실내 공기 질이 염려되는 이유에 대한 설문에서 아이 건강이 염려 된다라는 응답(기타 제외)이 가장 많음 영유아 또는 미취학(0~7세) 자녀가 있는 고객 255 명 중 실내 공기 질이 염려되는 이유에 대한 설문 에서 아이 건강이 염려 된다라는 응답(기타 제외) 이 가장 많음 ▶ 별첨 54
  53. 어린 자녀가 있는 고객 중 공기청정기 있는 집과 없는 집의

    공기 질 차이 T-TEST 영유아 자녀가 있는 고객 중 청정기 보유 고객과 미 보유 고객의 공기 질 차이 일반먼지, 미세먼지, 초미세먼지 미세먼지와 초미세먼지가 등분산성을 기각하고, 일반먼지는 기각하지 못한다. 차이가 있다는 귀무가설은 모두 기각 한다. 따라서 영 유아 자녀가 있는 고객 중 청정기 보유 고객과 미 보유 고객의 일반먼지, 미세먼지, 초미세먼지는 밀도 차이가 있다. ▶ 별첨 55
  54. 어린 자녀가 있는 고객 중 공기청정기 있는 집과 없는 집의

    공기 질 차이 일산화탄소, 이산화탄소 일산화탄소가 등분산성을 기각하고, 이산화탄소는 기각하지 못한다. 차이가 있다는 귀무가설은 모두 기각 할 수 없다 따라서 영유아 자녀가 있는 고객 중 청정기 보유 고객과 미 보유 고객의 일산화탄소, 이산화탄소 농도 차이는 없다 T-TEST 영유아 자녀가 있는 고객 중 청정기 보유 고객과 미 보유 고객의 공기 질 차이 ▶ 별첨 56
  55. 어린 자녀가 있는 고객 중 공기청정기 있는 집과 없는 집의

    공기 질 차이 T-TEST 영유아,미취학 아동(0~7세)자녀가 있는 고객 중 청정기 보유 고객과 미 보유 고객의 공기 질 차이 일반먼지, 미세먼지, 초미세먼지 모두 등분산성을 기각 하고, 차이가 있다는 귀무가설도 기각 한다. 따라서 영유아 또는 미취학 아동 자녀가 있는 고객 중 청정기 보유 고객과 미 보유 고객의 일반먼지, 미세먼지, 초미세먼지는 밀도 차이가 있다. ▶ 별첨 57
  56. 어린 자녀가 있는 고객 중 공기청정기 있는 집과 없는 집의

    공기 질 차이 일산화탄소, 이산화탄소 일산화탄소가 등분산성을 기각하고, 이산화탄소는 기각하지 못한다. 차이가 있다는 귀무가설은 모두 기각 할 수 없다 따라서 영유아 또는 미취학 아동 자녀가 있는 고객 중 청정기 보유 고객과 미 보유 고객의 일산화탄소, 이산화탄소 농도 차이는 없다 T-TEST 영유아,미취학 아동(0~7세)자녀가 있는 고객 중 청정기 보유 고객과 미 보유 고객의 공기 질 차이 ▶ 별첨 58
  57. 흡연자와 관련 된 실내 공기 질 분석 가족 구성원 중

    흡연자 유무에 따른 실내 공기 질 흡연자 수와 흡연자 유무 정의 ‘C2 가족 구성원 내 흡연자’라는 질문 항목에서( 중복 응답 최대 2개) 98(응답 없음)문항에 체크한 사람 수는 401(전체683)명 이고, 비 흡연 대한 항목이 없어 응답 없음으로 답한 것을 비흡연자로 간주  가족 구성원 내 흡연자 수 (중복응답이 최대 2개 이므로 최대 흡연 자 수 는 2명 까지)에 대한 실내 공기 질 비교를 ANOVA로 진행  흡연자 유무는 구성원 중 흡연자 수가 0명인 곳과 1명 또는 2명이 곳을 묶어 흡연자 있는 곳, 없는 곳으로 나눠 T-TEST 진행 설문지조사 분석 C2_2A흡연자의 주 흡연 장소 1. 6 기타(베란다/발코니 등) 2. 7 외부 3. 5 화장실 4. 99 응답 없음 ▶ 별첨 59
  58. 흡연자와 관련 된 실내 공기 질 분석 ANOVA 등분산성 검정

    미세먼지, 초미세먼지, 이산화탄소 등분산성 기각 일반먼지, 일산화탄소 등분산성 기각 못함 ▶ 별첨 60
  59. 흡연자와 관련 된 실내 공기 질 분석 차이가 있는 공기

    질(일반먼지, 미세먼지, 초미세먼지) ANOVA 미세먼지 ANOVA 미세먼지의 경우 P-VALUE가 0.0205로 귀무가설(차이가 없다)를 기각한다. 따라서, 흡연자 수에 따른 실내 미세먼지 농도차이가 있다 초미세먼지 ANOVA 초미세먼지의 경우 P-VALUE가 0.0176으로 귀무가설(차이가 없다)를 기각한다. 따라서, 흡연자 수에 따른 실내 초미세먼지 농도 차이가 있다 이산화탄소 ANOVA 이산화탄소의 경우 P-VALUE가 0.0400으 로 귀무가설(차이가 없다)를 기각한다. 따라서, 흡연자 수에 따른 실내 이산화탄 소농도 차이가 있다 ▶ 별첨 61
  60. 흡연자와 관련 된 실내 공기 질 분석 차이가 없는 공기

    질(일반먼지, 일산화탄소) ANOVA 일반먼지 Welch의 분산가중 ANOVA P-VALUE가 0.0771로 귀무가설을 기각 할 수 없다. 따라서 통계적으로 흡연자 수에 따른 일반먼지 농도 차이는 없다 일산화탄소 Welch의 분산가중 ANOVA P-VALUE가 0.6702로 귀무가설을 기각할 수 없다. 따라서 통계적으로 흡연자 수에 따른 일 산화탄소 농도 차이는 없다 ▶ 별첨 62
  61. 흡연자와 관련 된 실내 공기 질 분석 T-TEST 가족구성원 중

    흡연자가 있는 고객과 없는 고객의 실내 공기 질 모두 차이 없음 순서대로 일반먼지, 미세먼지, 초미세먼지, 일산화탄소, 이산화탄소 모두 등분산성을 기각하고, 차이가 없다는 귀무가설을 기각할 수 없다. 따라서 통계적으로 흡연자 유무에 따른 실내 공기질 차이는 없다 이유 : 대부분의 흡연자는 실 외에서 흡연을 하기 때문에 실내 공기질에 큰 여향을 미치지 않는다 ▶ 별첨 63
  62. ▶ 별첨 초미세먼지 통계량 분석 • 전체 데이터의 시간 별

    자료 분포 각 시간 별로 상당히 균일한 모습 • 초미세먼지 수치가 25 이상인 자료들의 시간 별 분포 • 특정 시간대에 높은 모습 관측 • 조리 전 실내 초미세먼지 농도는 조리 후 61 -> 259, 59 -> 70, 81 -> 195 로 증가하는 모습 관측 (공동주택의 환기방식 별 실내PM2.5 질량농도 특성에 관 한 연구)(2012학술대회 미세먼지) • 위의 3 경우는 각각 다른 환기방식에 대한 것이지만 공통적으로 조리 시에는 초미세먼지 농도가 증가한다. • 소비자행태조사보고서(2008)에 따르면 1830-2030(평일) 1830-2000(주말) 시간대가 저녁시간대로 가장 높은 비율을 차지함 • 이 두 논문과 미세먼지 빈도 그래프를 이용해 조리 시에 미세먼지가 발생한다는 걸 알 수 있다. 64
  63. 군집 분석 결과 세그먼트 ID 1 2 3 4 5

    6 C1. 가족 구성원 수 3.6770186 3.6931217 3.7622378 3.7692308 4.0413793 1.939393939 MAX_AGE. 가족 구성원 중 최고령자 나이 40.745342 44.761905 43.769231 44.918269 50.586207 35.20634921 PA_COUNT. 가족 구성원 중 환경성 질환자 수 0.9689441 0.9206349 0.7902098 0.8701923 0.3586207 0.257575758 SQ_4. 연령 36.838509 38.587302 38.699301 38.572115 43.482759 33.93939394 A5. 더 해로운 공기 타입 - 0응답없음 3.47E-17 0.010582 0.027972 0.0048077 3.12E-17 0.045454545 A5. 더 해로운 공기 타입 - 1실외공기질 0.5031056 0.4973545 0.5874126 0.5144231 0.5241379 0.363636364 A5. 더 해로운 공기 타입 - 2실내공기질 0.4968944 0.4920635 0.3846154 0.4807692 0.4758621 0.590909091 DE3. 월 평균 소득 (세후기준) 6.7018634 6.8465608 7.0839161 7.6875 7.337931 6.136363636 SQ16_2_1. 자녀의 나이는 어떻게 됩니까? (가장어린자녀) 1.7033898 2.4015152 2.0454545 2 3.68NaN SQ16_1. 자녀가 있습니까? -1예 1.000000 1.000000 1.000000 0.960784 1.000000 0.000000 SQ16_1. 자녀가 있습니까? -2아니오 0.000000 0.000000 0.000000 0.039216 0.000000 1.000000 Transform: A1 실내 공기질 우려도 0.4024668 0.5389167 0.5989641 0.4210948 0.5656874 0.516414141 Transform: A2 실외공기질 우려도 0.3878923 0.5815668 0.5562623 0.4086328 0.5831329 0.523300439 Transform: B1 "코웨이" 브랜드 선호도 0.3586378 0.2636075 0.6426704 0.7553691 0.4908424 0.427980463 Transform: B2 "코웨이" 브랜드 추천의향 0.3481734 0.2621078 0.6276761 0.7731265 0.496011 0.422971491 Transform: B3_1 "코웨이" 브랜드 이미지 - (1) 전문적이다 0.3516604 0.2482421 0.6138894 0.7416366 0.5414171 0.483527711 Transform: B3_2 "코웨이" 브랜드 이미지 - (2) 프리미엄하다 0.3748842 0.2619889 0.5783301 0.7230463 0.5588967 0.484740497 Transform: B3_3 "코웨이" 브랜드 이미지 - (3) 젊다 0.3746322 0.2724955 0.591212 0.7047987 0.5676195 0.465701422 Transform: B3_4 "코웨이" 브랜드 이미지 - (4) 신뢰할 수 있다 0.3247521 0.252077 0.6394652 0.7576412 0.5329817 0.450865564 Transform: B3_5 "코웨이" 브랜드 이미지 - (5) 혁신적이다 0.3399259 0.261722 0.6020772 0.7497549 0.5664398 0.418585526 Transform: B4_1 "생활 가전 제품 및 렌탈 서비스 제품 필요도 - (1) 정수기 0.4644287 0.3075861 0.6111022 0.6917225 0.4574977 0.386214115 Transform: B4_2 "생활 가전 제품 및 렌탈 서비스 제품 필요도 - (2) 공기청정기 0.5357177 0.2796575 0.6052862 0.7276353 0.3655361 0.393748339 Transform: B5_1 "코웨이" 제품 만족도 - (1) 정수기 0.4091645 0.2399624 0.5355273 0.6632212 0.5439236 0.493277821 Transform: B5_2 "코웨이" 제품 만족도 - (2) 공기 청정기 0.4131491 0.2683348 0.5569823 0.6438548 0.2764811 0.398650605 Transform: B6 공기 청정기의 실내 공기질 개선 영향에 대한 인식 0.4634889 0.3371885 0.5152627 0.7152787 0.4620501 0.427149787 Transform: B7_1 향후 1년 내 코웨이 제품 이용 의향 - (1) 정수기 0.4976504 0.4246467 0.5985654 0.6113518 0.4130407 0.348077818 Transform: B7_2 향후 1년 내 코웨이 제품 이용 의향 - (2) 공기청정기 0.6070407 0.3800705 0.6812048 0.6343597 0.2029983 0.418776582 Transform: G1 [공기질 측정 서비스 컨셉 평가] 호감도 0.607354 0.261226 0.3469245 0.7487085 0.4906496 0.4902811 Transform: G2 [공기질 측정 서비스 컨셉 평가] 필요도 0.6529299 0.2598829 0.3045945 0.7496995 0.4923662 0.467769803 Transform: G3 [공기질 측정 서비스 컨셉 평가] New/차별도 0.6607075 0.2683184 0.3468746 0.7298704 0.4607154 0.465061802 Transform: G4 [공기질 측정 서비스 컨셉 평가] 이용 의향도 0.6585724 0.2588967 0.3005536 0.7592437 0.4862145 0.449021465 TYPE. Coway 공기 청정기 보유 및 관리 0.8012422 0.4232804 0.965035 0.8509615 0.0137931 0.46969697 TYPE. Coway 공기 청정기 보유, 비관리 0.1242236 0.3862434 0.034965 0.1346154 0.5931034 0.348484848 TYPE. 비보유 0.0745342 0.1904762 2.50E-16 0.0144231 0.3931034 0.181818182 ▶ 별첨 65
  64. 군집 별 특징 해석 군집 1 분석 (A5)더 해로운 공기타입에서

    실외공기질 이라 답한 사람 비율이 높음 (SQ16_1)모두 자녀가 있음 (A1,A2)실내, 실외 공기질 우려도가 가장 높음 (B1,B2)코웨이 브랜드 선호도, 추천의향이 두번째로 낮음 (B3) 브랜드 이미지관련에 대해 두번째로 점수가 낮음 (B4) 가전 제품 및 렌탈 서비스 필요도(정수기, 청정기)에 대한 질문에 정수기는 전체 평균 보다 낮음, 청정기는 전체 평균 보다 높음 (B5) 만족도에 대한 질문에 모두 전체 평균 보다 낮음 (B6)청정기의 실내 공기질 개선 영향에 대한 인식은 전체 평균 보다 낮음 (B7) 1년 내 제품 사용 의향에 대해 정수기는 전체보다 낮음, 청정기는 전체 평균 보다 높음 (G) 공기질 측정 서비스 컨셉 평가에 관련된 항목에서 모두 두번째로 높음 (TYPE)청정기 보유 여부에서는 ‘보유 및 관리’하는 비율이 전체 평균 보다 높음, ‘보유하지만 관리하지 않는 비율’과 ‘비보유 비율’이 전체 평균 보다 낮음 (C1)가족 구성원 수는 전체 평균 보다 높음 (MAX_AGE)가족 구성원 중 최고령자 나이는 두번째로 적음 (PA_COUNT)가족 구성원 중 환경성 질환자 수 가장 많음 (SQ_4) 연령이 두번째로 낮음 (DE3)월 평균 소득 전체 보다 낮음 (SQ_16_2_1)가장 어린 자녀의 나이가 가장 적음 ▶ 별첨 66
  65. 군집 별 특징 해석 군집 2 분석 (A5) 더 해로운

    공기타입에서 실외공기질 이라 답한사람 비율 높음 (SQ16_1)모두 자녀가 있음 (A1,A2) 실내/실외 공기질에 대한 우려도 낮음 (B1,B2) 코웨이 브랜드 선호도, 추천의향이 가장 낮음 (B3) 모든 브랜드 이미지관련(B3)에 대해 가장 점수가 낮음 (B4, B5) 가전 제품 및 렌탈 서비스 필요도(정수기, 청정기), 만족도에 대한 질문에 모두 가장 낮음 (B6)공기 청정기의 공기질 개선 효과에 대한 인식 가장 낮음 (B7) 1년 내 제품 사용 의향 낮음 (G) 공기질 측정 서비스 컨셉 평가에 관련된 항목 모두 가장 낮음 (TYPE)청정기 보유 여부에서는 ‘보유 및 관리’하는 비율이 전체보다 낮음, ‘보유하지만 관리하지 않는 비율’과 ‘비보유 비율’이 전체 평균 보다 높음 (C1)가족 구성원 수 높음 (MAX_AGE)가족 구성원 중 최고령자 나이 많음 (PA_COUNT)가족 구성원 중 환경성 질환자 수 두번째로 많음 (SQ_4) 연령이 전체 평균 보다 낮음 (DE3)월 평균 소득 전체 평균 보다 낮음 (SQ_16_2_1)가장 어린 자녀의 나이가 전체 평균 보다 적음 ▶ 별첨 67
  66. 군집 별 특징 해석 군집 3 분석 (A5)더 해로운 공기타입에서

    실외공기질이라 답한 사람 비율이 가장 높음 (SQ16_1)모두 자녀가 있음 (A1,A2)실내 공기질 우려도가 가장 높음, 실외 공기질 우려도가 가장 낮음 (B1,B2)코웨이 브랜드 선호도, 추천의향이 두번째로 높음 (B3) 브랜드 이미지관련에 대해 두번째로 점수가 높음 (B4) 가전 제품 및 렌탈 서비스 필요도에 대해 두번째로 높음 (B5) 만족도에 대해 정수기는 세번째, 청정기는 두번째로 높음 (B6) 청정기의 실내 공기질 개선 영향에 대한 인식에 대해 두번째로 높음 (B7) 1년 내 제품 사용 의향에 대해 정수기는 두번째로 높음, 청정기는 가장 높음 (G) 공기질 측정 서비스 컨셉 평가에 관련된 항목에서 모두 두번째로 낮음 (TYPE)’보유 및 관리‘ 비율이 가장 높음, ‘비관리’, ’비보유’ 비율이 가장 낮음 (C1)가족 구성원 수가 세번재로 많음 (MAX_AGE)가족 구성원 중 최고령자 나이는 평균 보다 낮음 (PA_COUNT)가족 구성원 중 환경성 질환자 수는 평균 보다 높음 (SQ_4) 연령 낮음 (DE3)월 평균 소득 전체 보다 조금 높음 (SQ_16_2_1)가장 어린 자녀의 나이가 평균보다 낮음 ▶ 별첨 68
  67. 군집 별 특징 해석 군집 4 분석 (A5)더 해로운 공기타입에서

    실외공기질이라 답한 사람 비율이 높음 (SQ16_1)자녀가 있다고 답한 사람 비율이 월등히 높음 (A1,A2)실내외 공기질 우려도가 두번째로 높음 (B1,B2)코웨이 브랜드 선호도, 추천의향이 가장 높음 (B3) 브랜드 이미지관련에 대해 가장 점수가 높음 (B4) 가전 제품 및 렌탈 서비스 필요도 가장 높음 (B5) 만족도 가장 높음 (B6) 청정기의 실내 공기질 개선 영향에 대한 인식 가장 높음 (B7) 1년 내 제품 사용 의향에 대해 정수기 가장 높음, 청정기는 두번째로 높음 (G) 공기질 측정 서비스 컨셉 평가에 관련된 항목에서 모두 가장 높음 (TYPE)’보유 및 관리‘ 비율이 두번째로 높음, ‘비관리’ 세번째, ’비보유’ 두번째로 낮음 (C1)가족 구성원 수가 두번재로 많음 (MAX_AGE)가족 구성원 중 최고령자 나이가 두번째로 높음 (PA_COUNT)가족 구성원 중 환경성 질환자 수는 세번째로 높음 (SQ_4) 연령이 평균 보다 낮음 (DE3)월 평균 소득이 가장 높음 (SQ_16_2_1)가장 어린 자녀의 나이가 두 번째로 어림 ▶ 별첨 69
  68. 군집 별 특징 해석 군집 5 분석 (A5)더 해로운 공기타입에서

    실외공기질이라 답한 사람 비율이 높음 (SQ16_1)모두 자녀가 있음 (A1,A2)실외공기질에 대한 우려도는 두번째로 낮음, 실내 공기질 가장 낮음 (B1,B2)코웨이 브랜드 선호도, 추천의향이 전체 평균보다 조금 낮음 (B3) 브랜드 이미지관련에 대해 전체 평균보다 조금 높음 (B4) 가전 제품 및 렌탈 서비스 필요도에 대해 정수기는 세번째로 청정기는 두번째로 낮음 (B5) 만족도에 대해 정수기는 두번째로 높고, 청정기는 두번째로 낮음 (B6) 청정기의 실내 공기질 개선 영향에 대한 인식 낮음 (B7) 1년 내 제품 사용 의향에 대해 정수기는 두번째로 낮음, 청정기는 가장 낮음 (G) 공기질 측정 서비스 컨셉 평가에 관련된 항목 낮음 (TYPE)’보유 및 관리‘ 비율 가장 낮음, ‘비관리’,’비보유’비율 가장 높음 (C1)가족 구성원 수가 가장 많음 (MAX_AGE)가족 구성원 중 최고령자 나이가 가장 많음 (PA_COUNT)가족 구성원 중 환경성 질환자 수가 두번째로 낮음 (SQ_4) 연령이 가장 높음 (DE3)월 평균 소득이 두번째로 높음 (SQ_16_2_1)가장 어린 자녀의 나이가 가장 많음 ▶ 별첨 70
  69. 군집 별 특징 해석 군집 6 분석 (A5)더 해로운 공기타입에서

    실내공기질이라 답한 사람 비율 가장 높음 (SQ16_1)모두 자녀가 없음 (A1,A2)실내외 공기질에 대한 우려도 높음 (B1,B2)코웨이 브랜드 선호도, 추천의향 낮음 (B3) 브랜드 이미지 낮음 (B4) 가전 제품 및 렌탈 서비스 필요도에 정수기는 두 번째로, 청정기는 세 번째로 낮음 (B5) 만족도 낮음 (B6) 청정기의 실내 공기질 개선 영향에 대한 인식 두 번째로 낮음 (B7) 1년 내 제품 사용 의향 정수기는 가장 낮음, 청정기는 세 번째로 낮음 (G) 공기질 측정 서비스 컨셉 평가 항목 낮음 (TYPE)’보유 및 관리‘ 비율 낮음, ‘비관리’,’비보유’비율 높음 (C1)가족 구성원 수 가장 적음 (MAX_AGE)가족 구성원 중 최고령자 나이 가장 적음 (PA_COUNT)가족 구성원 중 환경성 질환자 수 가장 적음 (SQ_4) 연령 가장 낮음 (DE3)월 평균 소득 가장 적음 (SQ_16_2_1)자녀가 없음 ▶ 별첨 71