1. 분석 모형 평가
* 지도학습 분류모델 평가 지표
* 비지도학습 군집분석 평가 지표
① 실루엣 계수 : 같은 군집에 속한 요소들의 평균거리와 함께 가장 가까운 이웃 군집까지의 거리도 함께
고려하여 계산
- a(i)는 군집 내 데이터 응집도, b(i)는 군집 간 분리도, 0.5보다 클 시 적절한 군집 모델, 0이면 군집으로 분리가
의미 없음 s(i)=(𝑏(𝑖)−𝑎(𝑖))/max {𝑎(𝑖),𝑏(𝑖)}
② Dunn Index : 군집 간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모, 값이 클수록 좋음
2. 분석 모형 진단
* 분석모형 진단
① 정규성 가정 : 분석을 진행하기 전 데이터가 정규분포를 따르는지 검정
② 중심극한정리 : 동일한 확률분포를 가진 독립확률변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에
가까워진다는 이론
③ 잔차 진단 : 회귀분석에서 독립변수와 종속변수의 관계를 결정하는 최적의 회귀선은 잔차(실측치와 예측치의
차이)를 가장 작게 해주는 선
- 정규성 진단, 등분산성 진단, 독립성 진단
* 교차검증
- 테스트 및 검증 데이터가 하나로 고정되지 않게 하여 데이터 모든 부분을 사용하여 모델을 검증
- 훈련데이터 셋의 일부를 훈련으로 이용하여 나머지를 검증으로 활용
- 반복 횟수 증가에 따른 모델 훈련과 평가/검증 시간이 오래 걸릴 수 있다.
* K-폴드 교차검증
- k개의 서브셋, k-1개의 훈련데이터 1개의 테스트데이터, 모든 데이터 셋을 평가에 활용하여 과적합 방지
- 전체 데이터 셋을 k개의 서브셋으로 나누어 k번의 평가를 실행하는데 테스트 셋을 중복없이 병행 진행하여
평균을 내어 최종적 모델의 성능을 평가
+ k값을 크게 할수록 과적합을 줄일 수 있음
+ 반복 횟수가 많아지므로 훈련시간이 오래걸림
- 홀드아웃 기법 : 훈련데이터, 검증데이터, 테스트데이터를 일정 비율로 지정, 데이터셋 크기가 작을수록
데이터를 나누는 방식에 따라 모델 성능 추정에 영향
+ 데이터 크기가 클 때 유용
* 적합도 검정
- 관측값들이 어떤 이론적 분포를 따르고 있는지를 검정하는 방법. 한 개의 요인을 대상으로 하는 것
- 정규성 검정
- 카이제곱 검정 : k개의 범주별로 나뉘어진 관측치들과 동일한 범주의 가정된 분포 사이의 적합도 검정
- 콜모고로프 스미르노프 검정 : 관측된 표본분포와 가정된 분포 사이의 적합도를 검사하는 누적분포함수의
차이를 이용한 검정법, 연속형 데이터에도 적용 가능
3. 분석 모형 개선
* 매개변수 최적화
① 확률적 경사 하강법(SGD) : 손실함수의 기울기를 따라 조금씩 아래로 내려가다 최종적으로 손실함수가 가장 작은
지점에 도달하도록 하는 알고리즘
- 손실함수를 가중치로 미분한 기울기에 학습률을 곱하여 현재의 매개변수인 가중치에서 뺀 값이 다시
손실함수가 계산되어 이를 통해 가중치를 갱신하는 과정이 반복
② 모멘텀 : SGD에 속도 개념인 기울기 방향으로 힘을 받으면 가속되는 물리법칙을 알고리즘에 적용
③ AdaGrad : 개별 매개변수에 적응적으로 학습률을 조정하면서 학습을 진행하는 알고리즘
④ Adam : 모멘텀과 AdaGrad를 결합한 방법론, 모멘텀과 비슷하게 진행되나 좌우 흔들림이 덜함
* 초매개변수 최적화
- 초매개변수 : 모델이 아닌 학습 알고리즘 자체를 조정하는 의미로 사람이 직접 설정하여 최적화 하는 것
+ 뉴런 수, 배치 크기, 학습률, 가중치 감소시의 규제강도 등
① 학습율 : 기울기 방향으로 얼마나 빠르게 이동할지 결정 작으면 학습 시간 길어짐
② 미니배치 크기 : 전체 학습 데이터를 주어진 배치 크기로 나눔 큰 경우 병렬연산 구조를 사용할 때 효과적,
작은 경우 더 많은 가중치 업데이트 가능
③ 훈련 반복 횟수 : 학습의 조기 종료를 결정하는 변수
④ 이터레이션 : 하나의 미니배치를 학습할 때 1 iteration 으로 1회 매개변수 업데이트 진행
⑤ 은닉층 개수 : 많아질수록 특정 훈련 데이터에 더 최적화
- 모든 은닉층의 뉴런의 개수를 동일하게 하는 것이 가변적으로 하는 것보다 효과적
* 과대적합 방지
① 가중치 감소 : 가중치가 클수록 일종의 패널티를 부과하여 가중치 매개변수 절대값을 감소시킴
- L2 규제(리지) : 손실함수에 가중치에 대한 L2 norm의 제곱을 더한 패널티를 부여하여 가중치 값을 비용함수
모델에 비해 작게 만듦
- L1 규제(라쏘) : 손실함수에 가중치의 절대값인 L1 norm을 추가 적용하여 대부분의 특성 가중치를 0으로 만듦
② 드롭아웃 : 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법
- 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법, 적은 뉴런만으로 훈련한 뒤 테스트 시 전체 뉴런을
사용하면 정답을 더 잘 찾음
- 적은 수의 뉴런들로 학습을 진행할 때 시간이 오래걸리는 단점이 있음
③ 초매개변수 최적화 : 수동으로 변수들을 설정하여 과적합 방지
④ 배치 정규화 : 학습과정에서 각 배치 단위 별로 데이터가 다양한 분포를 가지더라도 각 배치별로 평균과
분산을 이용해 정규화 하는 것
⑤ 데이터 분할
⑥ K-fold 교차검증
* 분석모형 융합
① 앙상블 학습 : 치우침 있는 여러 모형의 평균을 취할 시 균형적인 결과를 얻음, 과적합 여지 줄어듬
② 결합분석 모형 : 두 종류 이상의 결과변수를 동시에 분석, 결과 변수 간 유의성·관련성 설명
* 최종모형 선정
① 회귀모형에 대한 주요 성능평가 지표 : SSE, 결정계수 R2, MAE, MAPE
② 분류모형에 대한 주요 성능평가 지표 : 특이도, 정밀도, 재현율, 정확도
③ 비지도학습 모형에 대한 주요 성능평가 지표 : 군집분석, 연관분석
4. 분석결과 해석
* 분석 모델별 결과 해석
- 딥러닝 모델 해석에 사용하는 오차율은 상대오차나 평균 제곱근 편차를 사용
① 회귀 모델 : 잔차, 결정계수(추정된 회귀식이 변동을 얼마나 잘 설명하는지) 등을 사용
- 잔차에는 패턴이나 추세가 있어서는 안됨
② 분류 모델 : 각각의 경우에 따라 클래스 별로 속할 확률의 정확도를 검토
③ 딥러닝 모델 : 분류문제인 경우 정확도나 오차율을 사용, 오차율은 상대오차나 평균 제곱근 편차를 사용
④군집분석 모델 : 연속형 변수의 경우 평균 또는 중앙값을 계산
- 범주형 변수가 있는 경우 범주별로 각 군집의 분포 사용
⑤ 연관분석 모델 : 두 개 또는 그 이상의 품목들 사이의 상호 관련성으로 해석,
- 지지도 신뢰도 및 향상도가 높은 규칙들을 찾되 최소 기준점을 적용
* 기여도
- 분석결과의 기여도 평가는 ROI 또는 업무 효율성 향상에 대한 비율로 측정
5. 시각화
* 분석 모델별 시각화
① 회귀 모델 : 변수들 간 관계 분석, 히트맵과 산점도 (비교, 시간, 관계 시각화)
② 분류 모델
- SVM : 산점도 (비교시각화)
- KNN : 평행좌표계, 변수들과의 연관성 및 그룹데이터 경향성 파악(비교 시각화)
- 의사결정나무 : 트리 다이어그램 (관계 시각화)
③ 딥러닝 모델 : 모델 아키텍처에서 파라미터 가중치 및 특징 차원감소를 통해 시각화
④ 군집분석 모델 : 클러스터별 단위, 산점도
⑤ 연관분석 모델 : 연관성 있는 항목끼리 묶어 네트워크 그래프를 활용
* 데이터 시각화
① 정보를 명확하고 효과적으로 전달하는 것을 목적으로 시각적 표현
② 기능적 측면과 심미적 측면을 모두 고려
③ 데이터 시각화 영역
- 정보 시각화 : 추상화된 데이터를 사람이 인지하기 쉽도록 시각화하여 표현
- 정보 디자인 : 시각 디자인의 하위 영역 정보를 구성하여 효율적 사용을 지원하는 디자인
- 인포그래픽 : 복잡한 수치, 글로 표현된 정보와 지식을 한눈에 파악하도록 시각적 표현
* 시간 시각화
① 이산형 : 특정 시점의 값을 표현 → 막대그래프 점그래프 등
② 연속형 : 구간의 변화하는 값을 표현 → 꺾은선그래프 계단그래프 추세선 등
- 막대그래프 : 일정기간에 걸쳐 진행되는 변화를 표현하기에 적합. 특정 기업의 매출을 월별로 구분해서 표현
- 누적막대그래프 : 값을 표현하는 하나의 막대에 2개 이상의 변수값으로 구성.
시간의 변화에 따른 각각의 변수의 값의 변화를 파악할 수 있음. 막대를 구성하는 각각의 변수는 색이나 패턴
등으로 구별해서 표현
- 꺽은선 그래프 : 시간에 변화하는 데이터를 비교해서 표현하는데 적합
* 분포 시각화
① 각 영역을 모두 합치면 1 또는 100%가 됨(히스토그램, 파이차트, 도넛차트, 트리맵, 누적영역차트 등)
- 도수분포표 : 데이터 값의 다양한 산출 분포를 보여주는 목록이나 표. 주어진 자료를 몇 개의 계급으로 나누고
데이터 값의 발생 건수를 요약해서 보여줌
- 히스토그램 : 구간별 데이터 분포를 표현하는데 적합
- 누적히스토그램 : 데이터 값의 분포에 상관없이 항상 오른쪽으로 치우쳐있음
- 파이차트 : 데이터의 각 값들이 차지하는 비율
- 도넛차트 : 조각의 길이로 데이터 값의 크기를 포현
- 트리맵 : 하나의 사각형 영역에 세부 사각형들의 크기로 데이터 분포 시각화. 계층형 구조를 가진 데이터 표현에
유용. 시도별 인구분포, 취업자 분포 등 분포데이터에 유용
- 누적영역차트 : 값의 분포를 표현하는데 적합하지만 한 집단의 경향성을 알아보기는 어려움
* 관계 시각화
① 데이터셋에 변수가 두 개 이상 있을 때 상관관계(산점도, 버블차트, 히트맵 등)
- 산점도 : 두 변수간의 관계를 표현하는데 적합. 점드르이 분포에 따라 집중도 확인 가능. 점의 크기, 형태, 색상
등을 다르게 할 수 있음. 3차원으로 표현할 수도 있음. 관계 추정을 위해 추세선을 추가할 수 있음
- 버블차트 : 가로축, 세로축, 버블의 크기 등 3개 변수 값을 하나의 그래프로 표현. 버블의 면적은 값의 크기에 비례
국가나 지역에 따른 값의 분포를 표현하는데 매우 유리
* 비교 시각화
① 하나 이상의 변수에 대해 변수 사이의 차이와 유사성 등을 표현 (히트맵, 체르노프 페이스, 스타차트,
평행좌표계, 다차원척도법 등)
- 히트맵 : 2차원 평면에서 2개 변수 사이의 관계를 온도(색)으로 표현한 그래프. 관계시각화나 비교시각화를 위한
도구로 사용, 데이터 값의 크기를 색, 명도, 채도를 달리하는 방법으로 표현. 이산형과 연속형 모두 사용 가능
- 평행좌표계 : 각 변수를 평행으로 늘어 놓고 개별 데이터들을 선으로 이어놓은 그래프
하나의 시각화 내에서 유형이나 크기가 전혀 다른 데이터값들을 비교하는데 사용. 패턴을 검사하는 용도
- 중첩도넛차트 : 2개 이상의 변수에 대해서 구성하는 값의 비율을 여러 개의 도넛을 겹친 형태로 표현한 것.
스타차트로 변환 가능
* 공간 시각화
① 장소나 지역에 따른 데이터의 분포 표현 (단계구분도, 카토그램 등)
* 기타
- 체르노프 페이스 : 다차원 통계 데이터를 사람의 얼굴 이미지를 이용하여 시각적으로 표현하는 방법
얼굴의 가로 너비, 세로 높이, 눈, 코, 입, 귀 등 각 부위를 변수로 대체하여 데이터의 속성을 쉽게 파악할 수
있도록 하기 위해 만들어졌다.
- 다차원 척도법 : 브랜드맵
6. 분석결과 활용
* 빅데이터 분석 방법론 참조모델(데이터산업진흥원)
① 분석기획 – 데이터 준비 – 데이터 분석 – 시스템 구현 – 평가 및 전개
* 전개단계
① 개발된 모델을 적용하여 결과를 확인하고 계속적인 관리를 위한 방법을 제시
- 분석결과 활용 계획 수립 : 빅데이터 분석 결과를 어떻게 업무에 반영할 것인지에 대한 액션 플랜을 만들고
업무 성과를 지속적으로 모니터링할 수 있는 방안 수립
- 분석결과 적용과 보고서 작성 : 분석 모델과 결과를 업무 현장에 적용하고 업무 데이터베이스 시스템 일부로
표현, 성과 측정 지표에 따라 분석 성과 측정, 개선 계획 수립
- 분석모형 모니터링 : 이전에 수립한 활용방안이 잘 수행되고 있는지 확인하고 주변 환경과 데이터의 변화를
빅데이터 분석 모델에 지속적으로 반영하기 위함
+ 분석서비스의 안정적인 운영과 현황화된 데이터의 수집, 저장, 관리, 분석 결과 활용 등을 위한 지속적인 활동
- 분석모형 리모델링 : 분석 모형이 변화된 업무와 데이터를 지속적으로 수용할 수 있도록
+ 가설 및 추정방법에 대한 재검토
+ 분석 데이터의 범위 및 품질 검토
+ 과대적합 방지를 위한 알고리즘 개선
+ 매개변수 최적화
* 분석결과 활용 계획 수립시 고려사항
- 분석업무의 성과목표를 수립하고 측정할 수 있는 성과지표를 설정
- 분석결과 활용을 위한 내·외부 교육 훈련 방안 수립
- 분석결과 활용은 장기적 관점에서 진행. 임시조직 보다는 업무부서를 확대하거나 전담조직을 갖추는 것이 효율적
- 결과활용을 위한 시나리오 개발
* 데이터 분석 서비스 유지관리
- 데이터 분석의 결과를 조직의 정책과 제도 개발에 활용
- 데이터 분석 관련 인력의 업무역량을 교육훈련을 통해 키움
- 분석 서비스 관련 시스템의 변경 사항을 반영
* 분석 모니터링 대상
- 분석 서비스
- 분석 알고리즘 실행 주기
- 분석 데이터
'상상의 창 블로그 > 배움의 창' 카테고리의 다른 글
욕심이 부른 반복된 참사(24.04.24) (0) | 2024.06.03 |
---|---|
일반인의 투자에 대하여(24.01.17) (1) | 2024.05.31 |
[빅데이터분석기사] 3. 모델링 (0) | 2024.05.30 |
[빅데이터분석기사] 2. 데이터 탐색 (1) | 2024.05.30 |
[빅데이터분석기사] 1. 빅데이터 분석기획 (0) | 2024.05.30 |