상관계수를 통한 예측적 변수선택 ① 변수간의 상관관계 p-value 고려 - 모든 변수간의 관계 p-value 0.001이하 (즉, 모든 변수들간 상관관계 있음을 나타냄 – 지표 부적합) ② 변수간의 상관계수 고려 1) 상관계수 절대값 0.5/0.6/0.65/0.7 점진적 증가해 “상관계수 높은 변수 관계” 추출 (공기 질 변수 유의미한 0.65/0.7 기준에서만 시행) 2) 변수 관계 중 목표변수와의 상관계수 가장 큰 변수 선택 (대표 변수 선정, 이외의 관계 갖는 변수 삭제) ③ 분산팽창지수(VIF)를 고려해 ‘다중공성선‘ 예상되는 변수 추가 삭제 ④ 상관계수 기준 별 위 과정을 거친 모델 비교해 Valid. SSE 최소인 모델에서 선택된 변수 선택 Ⅱ. 단계별 선택을 통한 탐색적 변수 선택 ① 데이터분할 노드 변경 반복, 회귀분석 시행 난수초기값 변경/반복 시행(15회씩), 기타 parameter 고정 ② “전진 선택”, “후진 제거”, “단계적 선택“법에 의한 회귀분석모델 중 최적 모델에 적용되는 입력변수를 분석. (이때, 최적모델의 기준은 Valid. SSE 최소) ③ 분산팽창지수(VIF)를 고려해 ‘다중공성선‘ 예상되는 변수 추가 삭제 - (선택적 변수선택 과정과 동일) ④ 상관계수 기준 별 위 과정을 거친 모델 비교해 Valid. SSE 최소인 모델에서 선택된 변수 선택 1. 변수선택법 개요(다음 슬라이드부터 설명) 2. 변수선택법 결과 및 최종선택 참조 모델 변수선택 방법 최적모델 기준 SSE : Train SSE : Valid. SSE : Test Adj.-R² Ⅰ. 예측적 방법 상관계수 0.65 14,421,622 7,386,324 2,268,690 0.7838 상관계수 0.70 14,285,864 7,315,528 2,37,0596 0.7857 Ⅱ. 탐색적 방법 전진 선택 13,646,254 6,568,176 2,219,554 0.7979 후진 제거 13,473,073 6,568,162 2,263,994 0.7979 단계별 선택 15,393,497 7,542,092 2,584,485 0.7684 각 기준에서 최적모델의 Valid. SSE값을 비교했을 때, Ⅱ. 탐색적 방법(후진제거 법)의 최적모델의 SSE값이 최소이므로, 이 모델에서 선택된 변수를 참고하고자 함. 14