본문 바로가기

상상의 창 블로그/배움의 창

양성과정_조사방법론

728x90

* 과학의 목적

   ─ 탐색, 기술, 설명, 이해 예측

 

 

* 과학적 연구의 특성

   ─ 논리적, 결정론적, 일반화, 특정적, 간결성, 검증가능, 상호주관적, 수정가능

 

 

* 연역, 귀납

   ─ 연역 : 일반화. 가설 → 관찰 → 채택 결정

   ─ 귀납 : 현상설명. 관찰 → 패턴발견. 잠정적 결론

 

 

* 과학적 연구절차

   ① 정확한 문제인식

   ② 기존 이론과 연구 고찰

   ③ 연구모형 및 가설검정

   ④ 조작적 정의

   ⑤ 변수간 관계규명

   ⑥ 가설검정 및 결과도출

 

 

* 연구의 유형

   ─ 탐색적 : 통찰을 위한 문제인식. 2차자료, FGI. 정성적

   ─ 기술적 : 명확한 정보도출, 확률적 표본추출, 설문, 정량적

   ─ 인과적 : 인과적 가설검증, 실험, 가설검증, 회귀분석

 

 

* 연구문제

   ─ 밝히고자 하는 의문을 명확하게 의문문으로 제시

   ─ 새로운 문제, 중요한 문제, 해결가능 문제

   ─ 의사결정에 의미있는 변화주는 것

   ─ 의사결정자의 목적, 문제의 환경, 대안적 행동, 불확실성, 기대치 등

   ─ 가치관과 무관, 두개 이상 변수간 관계 표현. 의문형으로 분명히 기술, 연구도 검증가능

 

 

* 연구문제 선정기준

   ─ 연구가능성, 중요성, 기여도

 

 

* 오류

   ─ 생태학적 오류 : 집단의 문제를 개인화 EX) 두산이 잘하니 국해성도 잘 할것이다.

   ─ 개인주의적 오류 : 개인연구를 집단에 적용 EX) 서울사는 A가 착하니 서울 사람은 착하다.

   ─ 환원주의 : 지나친 단순화, 원인변수를 자신이 아는 분야로만 한정. EX) 경제학자는 경제적 변수로만 현상 이해

 

 

* 이론, 개념, 정의

   ─ 이론 : 현상을 설명, 예측할 목적, 변수간 관계 구체화

       + 명확하게 정의된 구성(개념), 상호 관계 규명

       + 체계적 견해, 개념간 연관성

       + 정확성, 일반성, 간결성, 인과정, 객관성

   ─ 개념 : 여러번 관찰한 결과들의 공통특성. 구체적인 것을 일반화

       + 구성개념 : 과학적 목적위해 의도적으로 채택한 개념

           → EX) 서비스 품질 : 시각적, 일관성, 납기준수 등

   ─ 정의 : 특정 용어로 표시되는 개념에 명확한 의미부여

       + 하나의 개념은 모두 같은 의미로 이해.

       + 유사하지만 다른 단어 사용. 설명 등

 

 

* 정의의 종류

   ─ 구성적 정의 : 이해하기 쉬운 다른 구성 개념을 이용

   ─ 측정을 위한 조작적 정의 : 측정 내용이나 방법을 구체적, 정확히 표현, 의미부여

       + EX) 재무성과 : 당기순이익

   ─ 실험을 위한 조작적 정의 : 인과관계 파악 위해 사용

       + 인위적으로 실험상황 조작

 

 

* 변수

   ─ 독립변수, 종속변수,매개변수, 상황변수

 

 

* 연구모형, 가설

   ─ 연구모형 : 연구문제와 관련된 현상에 이론적 체계, 중요한 변수간의 관계 표현

   ─ 가설 : 둘 이상 변수간 관계 검정가능한 형태로 서술

       + 검증가능, 간소, 해답제공, 단순, 계량적, 결과에 영향, 가치중립적

       + 이론의 검정, 제시, 사회현상의 기술 및 지식증가

       + 대립(연구)가설, 귀무(영) 가설(=포함)

 

 

* 기타변수

   ─ 외재적 변수(우연한 제 3의 변수), 구성변수(하위개념), 매개변수, 선행변수, 억제변수, 왜곡변수

 

 

* 연구의 종류

   ─ 탐색적 연구 : 문헌, 사례, FGI, 전문가 의견

       + 연구초기단계, 아이디어, 통찰 습득 목적

   ─ 기술적 연구 : 의사결정 영향 변수간 상호관계 파악

       + 상황변화에 따른 반응 변화 분석 및 예측

          → 횡단연구 : 여러 연구대상, 한 시점, 표본 큰 경우

          → 종단(시계열)연구 : 여러시점

          → 패널연구 : (횡단+시계열) 비교적 작은 규모, 여러 시점, 고정된 표본집단

          ─ 인과관계 연구 : 특정 현상간 인과관계 규명. 특정현상 구체적 정확한 이해, 설명, 예측

 

 

* 실험설계

   ─ 변수간 관계 명확히 규명 위해 효과적 연구, 분석 계획 수립

   ─ 전제조건

       + 실혐변수조작 : 결과에 영향주는 변수, 요인 인위적 변화나 조작

       + 외생변수 통제/제거 : 실험, 결과변수 외의 변수 통제

       + 실험대상 무작위 : 대표성 높임, 결과의 일반화 위해

 

 

* 실험설계 기본요소

   ─ 가설

   ─ 변수 : 각기 특성, 계량화

       + 독립변수 : 원인변수

       + 종속변수 : 결과변수

       + 매개변수 : 독립, 종속의 인과관계 연결 변수

       + 상황변수 : 독립변수의 영향력 크기 좌우하는 제 3의 변수

   ─ 외생변수통제

       + 성숙효과, 우발적 사건, 통계적 회귀, 측정방법 변화, 표본의 편중, 실험대상 소멸, 시험효과(주시험(익숙), 상호작용시험(일관성))

 

 

* 실험설계 종류

기준 원시실험설계 순수실험설계 유사실험설계
변수노출시점 대상통제 및
대상통제
X O X
측정시점 및 대상통제 X O O
대상무작위 X O X

   ─ 원시설험설계 : 문제도출 및 순수실험설계를 위한 탐색적 연구

       + 단일집단 사후실험설계 : 실험변수 노출 후 사후 결과 측정

          → EX) TV 선거방송 효과 연구

       + 단일잡단 사전사후 실험설계 : 사전측정, 사후측정 차이 규명

       + 집단비교설계 : 노출집단과 비노출집단 비교

   ─ 순수실험설계 : 학문적으로 활용

       + 통제집단 사전사후 실험설계 : 실험대상 무작위, 실험집단, 통제집단 할당. 도입 전 후 결과 측정

          → 통제집단 실험변수X, 실험집단과 같은시기에 결과 사전사후 2번 측정

          → 상호작용시험효과 제거 못함

       + 통제집단 사후실험설계 : 사전측정 X, 상호작용효과 제거

          → 표본의 무작위 추출로외생변수 영향 제거

       + 솔로몬 4집단 설계 : 위의 2 설계 결합. 모든 외생변수 통제 가능한 실험설계

   ─ 유사실험설계 : 무작위 X, 측정대상과 시점만 통제

       + 2집단 사전사후실험설계 : 실험, 통제집단 분류는 하나 랜덤배치 불가시

       + 시계열 실험설계 : 실험조건상 연구대상을 실험, 통제분류 불가능시

          → 동일한 대상에 실험변수 도입 전, 후 반응. 일정한 간격 두고 반복적 측정

       + 반복실험설계 : 집단분류X, 실험변수가 일시적 변화될 가능성 높을 경우. 동일 대상에 일정한 기간 두고 반복측정

 

 

* 연구설계의 타당성

   ─ 외적 타당성 : 실제 적용시 얼마나 적합한가

   ─ 내적 타당성 : 적황시 설계하고 실험했는가? 외생변수 통제

 

 

* 척도

   ─ 이산형 자료 + 질적자료 → 명복자료(명목척도)

                                            → 서열자료(서열척도)

                          + 수치자료 → 구간자료(등간척도)

   ─ 연속형 자료 + 수치자료 → 비율자료(비율척도)

 

 

* 척도 구성기법에 따른 유형

   ─ 어의차의 척도(의미분화척도법)

       + 매우나쁨 1 2 3 4 5 6 7 매우좋음

   ─ 리커트척도 : 여러 문항 태도측정, 측정치 합산하여 태도 분석. 등간척도

   ─ 보가더스척도 : 인종 등 사회집단 사회적 거리측정, 척도간 거리가 같다고 가정. 신뢰도 측정은 재조사만 가능

       + 1단계) 가족으로 받아들임

       + 3단계) 이웃으로 인정

       + 7단계) 나라에서 추방

   ─ 서스톤척도 : 우호, 비우호 극단 설정. 등간격 구분. 문항마다 척도값 부여

   ─ 거트만 척도(누적척도법)

       + 재생계수(CR) = 1-(오차총수 / (문항수*응답수))

       + 찬성 반대 문항 2~30개 수집

       + 200~300명 설문

       + 도형분석, 오차파악 → 재생계수 계산

       + 재생계수 90% 이상이면 좋음(단, 80%이상 동일 응답 문항 제외)

   ─ 소시오메트리 : 인간관계측정방법. 친화와 반발조사. 빈도, 강도에 따라 집단구조 이해 하는 척도

 

 

* 오차발생의 원인

   ─ 측정하지 않은 다른 특성차에 의한 오차 (EX, 지능)

   ─ 측정시 여건 (EX, 건강상태)

   ─ 측정연구자의 특성 (EX, 성별, 연령, 인종)

   ─ 측정도구관리 (EX, 조명, 소음)

   ─ 코딩오차 : 유사응답을 다르게 처리

   ─ 측정도구에 대한 이해 차이 : 응답자간 문제이해차이

 

 

* 측정오차

   ─ 체계적 오차 : 오차가 일정방향으로 나타남. 타당성 문제. 요인분석 사용

   ─ 비체계적 오차 : 일관성 없이 영향. 신뢰성 문제. Cronbach's alpha 계산

 

 

* 신뢰성

   ─ 동일 대상에게 반복 측정해서 동일한 결과 얻는 정도

       + 측정값 = True + Error

       + 총분산 = Var(T) + Var(E)

       + 신뢰성 = Var(T) / 총분산     (0~1 사이)

   ─ 신뢰성 측정

       + 재검사 : 시간차 두고 재검사. 외생변수 등 문제

       + 반분법 : 집단 평균값간 상관관계 조사

       + 내적일관성 : 동일개념 측정위해 여러항목을 이용하는 경우 측정법

          → Crombach's alpha 0.6~0.7 이상이면 신뢰성 높다 판단. 가장 많이 쓰임

   ─ 신뢰성 높이는 법

       + 측정항목 모호성 제거

       + 측정항목 늘림

       + 응답자가 모르는것은 측정 안함

       + 검증된 측정방법 사용

   ─ 측정위한 통계프로그램 사용방법

       + 항목분석, 요인분석을 만족스러울 때 까지 두가지 방법 반복시행

 

 

* 타당성

   ─ 측정하려 했던 개념을 제대로 측정한 정도

       + 요인분석(특히 개념타당성 측정)

   ─ 내적 타당성

       + 내용타당성(대표성) : 측정도구 자체가 제대로 측정 할 수 있는지. 주관적 판단

       + 기준에 의한 타당성(효과성) : 예측가능성. 예측타당성

       + 개념타당성(논리성) : 측정도구가 실제 무엇을 측정했는가, 조사자가 측정하고자 하는 추상적 개념이 실제 도구에 의해 적절히 측정되었는가, 즉, 도구가 얼마나 적절히 측정했는가

          → 집중타당성 : 동일개념 측정위해 최대한 다른 두가지 측정 방법 개발, 측정치간 높은 상관관계 존재해야 함

          → 판별타당성 : 서로다른 개념 측정치간 상관관계가 낮게 나와야 함

          → 이해타당성 : 특정개념을 어떻게 이해했는가

   ─ 외적타당성 : 현실에서 적용가능한가. 일반화 가능

   ─ 타당성 측정

       + 서로 상이한 개념에 대해 여러 도구로 측정

       + 측정치들간 요인분석

       + 요인분석 후 요인값에 의해 가설검증 가능

   ─ 타당성 높이는 법

       + 연구분야 충분한 지식 습득

       + 선행연구에서 타당성 인정받은 도구 사용

       + 사전조사 충분히 활용

 

 

* 표본추출관련 개념

   ─ 모집단 : 내용, 정도, 시점에 의해 정의. 무한, 유한 가능

   ─ 표본 : 모집단의 부분집합

   ─ 모수 : 모집단의 특정값

   ─ 통계량 : 표본의 특정값

   ─ 요소 : 정보수집단위(분석단위) ex, 개인

   ─ 표본단위 : 모집단의 개별단위. 개별 투표자, 사건 등

   ─ 표본프레임 : 표본단위가 수록된 목록

       + 프레임 설정이 중요. 모집단 일치성 높아야 함

 

 

* 표본추출과정

   ─ 모집단 확정 : 인구통계학, 지역, 시간 고려

   ─ 표본프레임 선정

   ─ 표본추출방법 결정 : 확률/비확률 추출방법

   ─ 표본크기 결정 : 예산, 시간 등 고려. 신뢰구간 접근법 또는 가설검증접근법 활용

   ─ 표본추출

 

 

* 표본추출 조사 고려사항

   ─ 모집단 대표 표본프레임 선정

   ─ 신뢰성 있는 결과도출 위해 표본정확성 확보

   ─ 비용과 시간 효율성 고려

 

 

* 표본추출의 문제점

   ─ 표본추출과 일반화 지향성

       + 표본추출방법의 선택 따라 다름

       + 비확률표본추출법은 일반화 어려움

   ─ 표본의 크기

       + 연구비, 통계적 의미로 중요

       + 충분한 자료량 필요

       + 표본크기와 통계적 검증력 문제

          → 표본크기 증대, 표본통계량 신뢰성 증대, 추정치 정밀도 증가, 통계적 검증력 향상, 통계적 유의한 결과 검출 가능성 증대

 

 

* 비확률 표본추출

   ─ 연구대상이 표본추출될 확률이 알려지지 않음. 인위적 추출

       + 모수추정 bias 존재 가능성

       + 표본분석결과 일반화 어려움

       + 표본오차 추정 불가능

       + 시간과 비용 적게 소요

   ─ 편의추출법 : 임의 시간, 장소에서 대상선정

       + 비용 적고 편리, 모집단 지식 보유로 추출 용이하고 정확도 큼. 전체표본 작을 때 유용

       + 연구 초기단계 질문 적용 타당성, 조사도구유용성 검증위해 이용

       + 표본대표성 확인못함, 분산/편견의 오류 통제불가, 모집단에 충분한 지식 있어야 함

   ─ 할당추출법 : 특성따라 세분된 각 집단 내에서 표본선정

       + 조사자 주관적 판단, 편의추출로 상업적 조사에서 널리 사용 ex) 인구분포, 지역별 할당

       + 같은 크기 무작위 추출법보다 적은 비용. 각 계층을 적절히 대표

       + 작위적 표본추출로 일반화 문제, 분류에 편견개입, 분류오차 가능성

 

 

* 확률표본추출

   ─ 연구대상이 표본으로 추출될 확률 알려짐. 무작위 추출

       + 확률이론, 무작위 방식

       + 모수추정에 bias가 없음

       + 표본분석 일반화 가능

       + 표본오차 추정가능

       + 시간과 비용 많이 소요

   ─ 단순무작위 추출 : 표본프레임의 표본에 일련번호. 일정수 표본 난수활용 무작위 추출

   ─ 체계적 추출법 : 일련번호, 등간격 번호 추출

       + 표본추출 용이, 조사 쉬움, 단순무작위보다 모집단 대표가능성 큼

       + 모집단 배열이 주기성이나 편향이 있을 경우 대표성 문제

   ─ 층화추출법 : 모집단 특정기준 서로 상이한 소집단 구분

       + 소집단 빈도 따라 적절한 수 표본 무작위 추출 (학과, 반 등)

   ─ 군집추출법 : 모집단을 군집으로 나누고 일정수 군집을 무작위 추출

       + 추출된 군집 내 모든 구성원 조사 (비용절감 목적)

 

 

* 표본수 결정

   ─ 표본수와 표본분포

       + 표본수 늘수록 모집단 추론 정확성 높아짐

       + 표본수 늘어날수록 표본분포가 모집단 참 값을 중심으로 집중

       + 늘수록 표본오차 감소

   ─ 표본크기

       + 허용가능오차(신뢰구간 절반)의 크기(e)와 신뢰수준 (1-a)을 고려하여 추출하고자 하는 표본크기(n) 산정

   ─ 표본크기는 표본오류와 반비례, 비표본오류와 비례. 즉, 표본이 클수록 비표본오류 증가, 표본오류 감소

 

 

* 1차자료 - 의사소통법

   ─ 설문지법 : 자료수집체계화, 조사목적을 초기에 공개

   ─ 서베이법 : 대인조사, 전화조사, 우편조사, 온라인조사

   ─ 면접법 : 조사목적공개, 자유로운 질의응답

       + 심층면접법 : 1명의 응답자와 1:1 면접, 정성조사

       + FGI : 표적 소비자 일반인, 어느정도 전문지식 보유자. 6~12명. 주제 자유로운 토론

   ─ 투사법 : 조사목적 모르는 상태, 단어, 문장완성 등

 

 

* 1차자료 - 관찰법

   ─ 응답자 행동. 태도를 조사자가 관찰기록

 

 

* 설문조사

   ─ 설문작성법

       + 내용 : 객관적 사실, 주관적 경험(태도)

       + 유형 → 폐쇄형 (객관식)

                  → 개방형 (단답식)

                  → 상황적 (서술식)

       + 설문양식

   ─ 장점

       + 한번에 일시측정, 도구변화에 따른 오류 줄임

       + 빠른 시간에 핵심정보 수집

       + 응답용이성, 정확성 높일 수 있는 형태 사전 제시 가능

   ─ 단점

       + 응답배경 원인분석 어려움

       + 응답자 적격여부 파악 어려움

   ─ 구성요소

       + 협조요청 : 취지, 조사기관

       + 식별자료 : 일련번호, 필요시

       + 지시사항 → 전반적 지시문 : 설문 전반 주의사항

                         → 구체적 지시문 ; 문항별 설명

                         → 면접자 지시사항 : 면접자에 대한 지시

       + 필요한 정보획득을 위한 문항

       + 응답자 분류자료 : 인구통계학적

   ─ 작성절차

       + 필요정보 결정

       + 자료수집방법 결정

       + 개별항목 내용결정

       + 질문형태 결정

       + 적절한 질문완성

       + 질문순서 결정

       + 초안지 작성

       + 설문지 사전조사

       + 설문지 완성

   ─ 질문형태

       + 개방형 질문 : 표본정보 없을 때, 코딩 어려움, 통계분석, 비교 어려움

       + 폐쇄형 질문 : 자료처리 용이, 상호배타적, 모든 응답 포괄해야 함. 원하는 응답 없을 수 있음

       + 양자택일형 : 신속한 응답과 처리 가능

       + 선다형 질문 → 카테고리 3~5개

                             → 논리적, 배타적, 내용 총망라

                             → 구체적 표현

                             → 하나의 기준 제시

       + 서열식 질문 : 중요도, 선호도 등

   ─ 바람직한 설문서 작성

       + 어렵고 포괄적 용어 금지

       + 응답자가 일관되게 한가지 방향성

       + 유도질문 금지

       + 위협적 질문 금지

       + 한 문항은 한가지 내용만

 

 

* 수집자료 코딩규칙

   ─ 직관적 : 높은 숫자 높은 코드값 EX, 나이

   ─ 연역적 ; 가설로 나올 수 있는 응답 종류 파악

   ─ 상호배타적 : 응답은 1개의 범주만 속하게

   ─ 포괄적 : 모든 항목 포함(예시에)

   ─ 특정적 : 범주 범위가 너무 넓지 않게

 

 

* 분석기법 분류

   ─ 변수의 수

       + 일변량 분석 : 하나의 종속변수 설명

          → t검정, 분산분석, 회귀분석

       + 다변량 분석 : 여러 독립변수, 여러 종속변수

          → 다변량 분산분석, 다변량 회귀분석, 요인분석, 판별분석, 군집분석, 구조방정식 모형, 정준상관계수 등

   ─ 척도의 수

       + 모수통계 : 변수가 등간, 비율척도로 측정된 경우

       + 비모수통계 : 변수가 명목, 서열척도로 측정된 경우

 

 

* 통계학의 구분

   ─ 기술통계 : 통계적 자료를 정리, 요약 등 자료 특성의 계산방법과 관련

   ─ 통계적 추론 : 표본자료 이용, 표본정보 계산, 이 값을 근거로 모집단 특성 도출

       + 구간추정, 가설검정, 회귀분석, 적합도(통계적 유의성)

 

 

* 기술통계

   ─ 중심화 경향 : 평균, 중앙값, 최빈치

       + 모집단 평균, 표본평균, 중앙값, 최빈값

       + 다음 경우 평균보다 중앙값, 최빈값 사용

          → 자료의 수가 적을 때(여름온도)

          → 극단값이 섞여 있을 때

          → 질적자료 : 명목, 서열자료

          → 개방구간 가진 도수분포자료

   ─ 산포경향 : 범위, 분산, 평균절대편차

       + 범위 : 최대값 - 최소값

       + 평균절대편차 : 편차 절대값 평균(MAD). 표본값과 평균의 차를 절대값 한 값의 평균

       + 분산, 표준편차

   ─ 비대칭도 : 왜도, 첨도

       + 왜도

       + 첨보

 

 

* 정규분포

   ─ 특징

       + 종모양 곡선, 면적은 1

       + 평균 중심으로 좌우대칭

       + 최고높이 0.399/표본편차, 산포가 클수록 낮아짐

       + 변곡점은 (뮤 - 시그마), (뮤 + 시그마)

   ─ 표준정규분포

       + 기대값(뮤) 0, 분산 1

       + 표준정규본포의 확률분포는 Z,  Z ~N(0,1)

       + 크기 n일때 표본평균의 통계량

          → E(엑스바n) = 뮤, Var(엑스바n)=시그마제곱/n, 시그마엑스바=시그마/루트 n

       + 모집단이 정규분포 N(뮤, 시그마제곱)일 때 표본평균의 분포

          → 엑스바n ~N(뮤, 시그마제곱/n)

       + 중심극한정리 : 표본평균 엑스바n이 n이 충분히 클 대 모집단 분포와 상관없이 근사적으로 N(뮤, 시그마제곱/n)의 분포를 따름

 

 

* 가설검정

   ─ 추정과 가설검정

       + 추정 : 미지의 모수 추정

       + 가설검정 : 미지의 모수의 값으로 추정한 값의 진위를 표본정보로 이용해 판정

 

   ─ 가설검정 : H1, H0('='포함) 모집단 모수 사용

   ─ 유의수준 : H0가 옳으나 H1 채택할 1종오류 최대치. a로 표시, 1%, 5%, 10%

   ─ 임계치/기각역 설정: H0이 =이면 양측, >, < 등이면 단측

   ─ 검정통계량 : 가설검정을 위한 표본의 통계량

   ─ 가설채택여부 : p값(유의확률)의 위치

 

 

* 가설검정 오류

  H0 참 H0 거짓
채택 True
확률 = 1-a
제 2종오류
확률 = b
기각 제 1종 오류
확률 = a(유의수준)
True
확률 = 1-b(검정력)

   ─ a와 b는 trade off

 

 

* 가설검정 종류

   ─ 검정대상 + 모집단의 평균 → 모집단의 수 1개       = t검정

                                               → 모집단의 수 2개       = t검정

                                               → 모집단의 수 3개이상 = 분산분석(ANOVA)

                   + 모집단의 분산    → 모집단의 수 1개       = 카이제곱 검정

                                                → 모집단의 수 2개       = F검정

 

 

* 상관분석

   ─ 상관, 회귀, 분산분석 : 분산들간의 관계분석

   ─ 두 변수 사이의 관계 밀접한 정도. 등간, 비율척도

       + 공분산의 어느정도 커야함. 밀접한 선형인지는 제시 못함

   ─ 모집단의 공분산 : Cov(X.Y) = E[(X-뮤x)(Y-뮤y)]

   ─ 표본공분산 : 시그마xy추정위해

       + Cov(X,Y) > 0 정의 선형관계

       + Cov(X,Y) < 0 부의 선형관계

       + Cov(X,Y) = 0 선형관계 없음

  ─ 공분산 단점보완. 상관계수 사용(r)

       + 공분산 / x분산*y분산

       + 완전한 정의 선형관계(1), 선형관계 없음(0), 완전한 부의 선형관계(-1)

       + t분포 사용

   ─ |r|의 해석

       + ~0.2 : 관계거의 없음

       + 0.2~0.4 : 낮은 상관

       + 0.4~0.6 : 비교적 높은 상관

       + 0.6~0.8 : 높은 상관

       + 0.8~1.0 : 매우 높은 상관

   ─ 상관분석과 회귀분석

       + 두 변수간 관계규명시 둘 다 많이 사용

          → 상관분석 : 변수간 관계 설명

          → 회귀분석 : 한 변수로부터 다른 변수 변화 예측

   ─ 연관성분석 + 명목/서열 척도                                  = 교차분석

                      + 서열 척도                                             = 스피어만 서열상관분석

                      + 등간/비율 척도  → 제 3변수 통제 안함  = 피어슨 상관분석

                                              → 제 3변수 통제             = 편상관분석

 

 

* 회귀분석

   ─ 독립변수가 종속변수에 미치는 영향력 정도 파악. 종속변수 값 예측

       + 독립변수의 수 → 단순회귀

                                 → 다중회귀

       + 독립변수척도  → 일반회귀 (등간/비율)

                                 → 더미변수이용회귀 (명목/서열)

       + 독립/종속 변수간 관계 → 선형회귀

                                             → 비선형회귀

   ─ 전제조건

       + 특정 독립변수값 갖는 종속변수는 정규분포, 분산이 동일

       + 종속변수 값들은 서로 독립적

       + 독립변수 여러개 일 경우 독립변수간 다중공선성(공차한계 VIF) 없어야 함

   ─ 결정계수(R^2) : 1에 가까울 수록 설명력이 높음(바람직)

       + 결정계수(R^2)이 1에 가까울수록, 유의한F(p-value), t통계량(영향력) 클 수록 영향력 큼

 

 

* 분산분석(ANOVA)

   ─ 하나의 정량적 종속변수와 두 개 이상의 실험요소를 가진 하나 이상의 비정량(명목) 독립변수관계 설명

   ─ 셋 이상 모평균 비교위해 개발

       + 0.05 유의수준 개별검증 여러번 하면 결합 유의수준은 0.05보다 커짐

   ─ 독립변수(1개이상, 명목척도), 종속변수(단하나, 등간/비율) 사용

  독립변수 종속변수
분산분석 명목 등간/비율
교차분석 명목 명목

   ─ 분산분석 가정 

       + 관찰치는 서로 독립적 확률변수(무작위성)

       + 각 모집단은 정규분포

       + 각 실험요소의 분산은 동일(동분산성)

 

 

* 변수들간의 관계

   ─ 공분산 도입. 얼마나 관계가 있는지 모름

   ─ 상관분석, 누가 원인이고 누가 결과인지 모름

   ─ 회귀분석(상관분석)

 

 

* 일원배치 분산분석

   ─ 독립변수가 1개

분산요인   평균자승
집단간 3개집단 평균에서 각각 집단거리 자승합/k-1 = MSB
집단내 각 집단 내 평균에서 거리 자승합/N-K = MSW

       + 검정통계량 F = MSB / MSW

       + 유의확률 Fk-1, n-k

       + F값 클수록 0에 가까움. 채택

 

 

* 이원배치 분산분석

   ─ 2개 이상 독립변수가 하나의 종속변수에 미치는 효과

   ─ 주효과 분석

       + 고객만족에 미치는 영향. 지점/규모

          → 지점과 고객만족, 매장규모와 고객만족. 각자 보는 것

   ─ 상호작용효과 분석

       + 지점의 매장규모와 고객만족 합쳐 분석

 

 

* 교차분석

   ─ x^2. 명목/서열 척도 변수들간 연관성 분석

   ─ 변수들간 범주 교차셀의 빈도(도수)교차표. 상호 독립성이나 관련성 정도 분석

   ─ 150명 임의조사, 소득과 정치성향 a=0.05. H0 정치성향과 소득 무관, H1 유관. 검정

  고소득 중간 저소득
친여 45 30 15 90
친야 5 20 35 60
50 50 50 150

       + 기대도수표

  고소득 중간 저소득
친여 30 30 30 90
친야 20 20 20 60
50 50 50 150

       + 기대도수 = (행빈도의 합*열빈도의 합) / 총빈도의 합

       + x^2은 (45-30)^2/30 + (5-20)^2/20 + ... + (35-20)^2/20 = 37.5 (기각영역)

 

 

* 요인분석

   ─ 변수간 상호연관성(공분산, 상관관계) 분석, 공통적 작용하는 내재요인 추출, 변수의 수 줄이는 기법

   ─ 요인 : 몇 개의 변수가 공통적으로 가지고 있는 특성. 변수보다 상위 개념. 절대개념이 아닌 하위레벨 변수나 요인을 종합적으로 보는 상대적 개념

  ─ 목적

       + 변수의 수 축소, 변수간 상호 독립적 차원 찾기 위해(R-Type)

       + 많은 대상자들을 유사한 집단으로 묶기 위해 (Q-Type)

       + 동일한 개념 측정도구의 타당성 검증

       + 회귀, 판별분석 등 추가분석 위해

   ─ 종류

  R-Type Q-Type
축소대상 변수 응답자(케이스)
목적 - 인식된 요인검증 (확인적 요인분석)
- 새로운 요인색출 (탐색적 요인분석)
주성분분석 : 변수 총분산 이용
공통요인분석:변수들간 공통분산 이용
 

   ─ 탐색적 요인분석 : 특별한 사전지식 결정사항없는 상태에서 변수간 내재적 관계 찾기

   ─ 확인적 요인분석 : 이미 개발된 모형이나 사전 지식기반으로 추출할 요인의 수와 요인에 속할 변수를 미리 확정, 옳은지 확인 목적

 

 

* 판별분석

   ─ 관측대상의 특성 나타내는 변수 이용 특정대상이 어느 집단에 속하였는지 예측. 선형 판별식 구하는 방법

   ─ 2개이상 집단으로 얻은 자료 이용, 각 집단을 가장 효과적으로 분류할 수 있는 선형식 구하기

       + ex) 기업도산여부, 고객대출여부, 고객이탈여부

   ─ 사용목적

       + 데이터 축소 : 불필요한 자료 제거

       + 추론/검정 : 여러 독립변수들이 그룹간 차이를 잘 나타내는지

       + 분류 : 기존자료 이용, 집단분류, 새로운 자료그룹 구분

       + 중요변수파악 : 독립변수의 상대적 중요성 파악

   ─ 계량적으로 측정된 (등간/비율) 척도 독립변수 이용, 명목척도 종속변수 분류(ANOVA와 반대)

       + 독립변수(등간, 비율) → 종속변수(명목, 서열)

 

 

* 군집분석

   ─ 개인 또는 여러 개체를 유사한 속성을 지닌 대상끼리 그룹핑하는 탐색적 다변량분석기법, 거리측정, 유사성 측정

   ─ 군집분석과 요인분석 차이

       + 요인분석 (변수 그룹화)

       + 군집분석 ( 개체 그룹화)

   ─ 군집분석과 판별분석 차이

       + 판별분석 : 사전집단정보 있는 경우 집단간 차별적 특성을 설명하는 변수 발견. 판별식 유도

       + 군집분석 : 사전 집단이 나뉘지 않음. 변수이용 개체 유사성 측정, 개체 집단화

   ─ 군집분석의 목적 : 유형탐색, 데이터 탐색, 데이터 제거, 가설검증, 가설도출, 모델적합도, 그룹에 기반한 예측(환자예측 등)

   ─ 군집분석 응용 : 세분시장 구분, 기업유형 구분, 소비자 집단구분 등

       + 요인, 판별, 분산분석 등과 함께 사용가능

   ─ 군집분석 종류

       + 군집대상 중복 없음 → 자료크기 작음       = 계층적 군집분석

                                        → 자료크기 제약없음 = 비계층적 군집분석

       + 군집대상 중복 있음                                  = 중복군집분석 프림(PRIM)

 

       + 계층적 군집분석 : 가까운 거리 대상들 하나씩 그룹핑, 순차적으로 다른 군집을 포함하는 큰 군집 형성

          다른 그룹과 중복 허용 안하는 조건 하

          → 덴드로그램 : 자료크기 크면 분석 어려움

       + 비계층적 군집분석 : 초기에 구하고자 하는 군집수 정하고 설정된 군집의 중심에 가장 가까운 개체를 하나씩 포함. 최적군집 찾는 법. 많은 자료를 빠르고 쉽게 하지만 초기값에 따라 결과 달라짐

          → K-MEANS CLUSTERING

       + 중복군집분석 : 몇 개의 군집화 규칙을 상이하게 적용, 하나의 개체가 여러 군집에 동시 표함 가능 PRIM

 

 

* 보고서 작성

   ─ 서론 → 이론적 배경(문헌연구) → 연구모형(방법론) → 분석결과 → 결론

 

 

* 요약

  상관분석 회귀분석 분산분석 교차분석 요인분석 판별분석 군집분석
개요 두 변수간 밀접 정도 독립변수가 종속변수에 미치는 영향력. 종속변수 예측 셋 이상 모평균 비교 명목/서열 변수간 연관성(빈도) 변수 수 줄이기 사전정보 있는 집단 특정 대상이 어떤 집단에 속하는지 판별 관측지 묶기
통계량 로, r
(상관계수)
R^2
(결정계수)
         
분포 t분포 t분포 F분포 x^2카이제곱      
척도 등간,비율 등간/비율
(일반회귀)
영목/서열
(더미변수이용)
독립 명목
종속 비율
독립 명목
종속 명목
     

 

728x90