* 과학의 목적
─ 탐색, 기술, 설명, 이해 예측
* 과학적 연구의 특성
─ 논리적, 결정론적, 일반화, 특정적, 간결성, 검증가능, 상호주관적, 수정가능
* 연역, 귀납
─ 연역 : 일반화. 가설 → 관찰 → 채택 결정
─ 귀납 : 현상설명. 관찰 → 패턴발견. 잠정적 결론
* 과학적 연구절차
① 정확한 문제인식
② 기존 이론과 연구 고찰
③ 연구모형 및 가설검정
④ 조작적 정의
⑤ 변수간 관계규명
⑥ 가설검정 및 결과도출
* 연구의 유형
─ 탐색적 : 통찰을 위한 문제인식. 2차자료, FGI. 정성적
─ 기술적 : 명확한 정보도출, 확률적 표본추출, 설문, 정량적
─ 인과적 : 인과적 가설검증, 실험, 가설검증, 회귀분석
* 연구문제
─ 밝히고자 하는 의문을 명확하게 의문문으로 제시
─ 새로운 문제, 중요한 문제, 해결가능 문제
─ 의사결정에 의미있는 변화주는 것
─ 의사결정자의 목적, 문제의 환경, 대안적 행동, 불확실성, 기대치 등
─ 가치관과 무관, 두개 이상 변수간 관계 표현. 의문형으로 분명히 기술, 연구도 검증가능
* 연구문제 선정기준
─ 연구가능성, 중요성, 기여도
* 오류
─ 생태학적 오류 : 집단의 문제를 개인화 EX) 두산이 잘하니 국해성도 잘 할것이다.
─ 개인주의적 오류 : 개인연구를 집단에 적용 EX) 서울사는 A가 착하니 서울 사람은 착하다.
─ 환원주의 : 지나친 단순화, 원인변수를 자신이 아는 분야로만 한정. EX) 경제학자는 경제적 변수로만 현상 이해
* 이론, 개념, 정의
─ 이론 : 현상을 설명, 예측할 목적, 변수간 관계 구체화
+ 명확하게 정의된 구성(개념), 상호 관계 규명
+ 체계적 견해, 개념간 연관성
+ 정확성, 일반성, 간결성, 인과정, 객관성
─ 개념 : 여러번 관찰한 결과들의 공통특성. 구체적인 것을 일반화
+ 구성개념 : 과학적 목적위해 의도적으로 채택한 개념
→ EX) 서비스 품질 : 시각적, 일관성, 납기준수 등
─ 정의 : 특정 용어로 표시되는 개념에 명확한 의미부여
+ 하나의 개념은 모두 같은 의미로 이해.
+ 유사하지만 다른 단어 사용. 설명 등
* 정의의 종류
─ 구성적 정의 : 이해하기 쉬운 다른 구성 개념을 이용
─ 측정을 위한 조작적 정의 : 측정 내용이나 방법을 구체적, 정확히 표현, 의미부여
+ EX) 재무성과 : 당기순이익
─ 실험을 위한 조작적 정의 : 인과관계 파악 위해 사용
+ 인위적으로 실험상황 조작
* 변수
─ 독립변수, 종속변수,매개변수, 상황변수
* 연구모형, 가설
─ 연구모형 : 연구문제와 관련된 현상에 이론적 체계, 중요한 변수간의 관계 표현
─ 가설 : 둘 이상 변수간 관계 검정가능한 형태로 서술
+ 검증가능, 간소, 해답제공, 단순, 계량적, 결과에 영향, 가치중립적
+ 이론의 검정, 제시, 사회현상의 기술 및 지식증가
+ 대립(연구)가설, 귀무(영) 가설(=포함)
* 기타변수
─ 외재적 변수(우연한 제 3의 변수), 구성변수(하위개념), 매개변수, 선행변수, 억제변수, 왜곡변수
* 연구의 종류
─ 탐색적 연구 : 문헌, 사례, FGI, 전문가 의견
+ 연구초기단계, 아이디어, 통찰 습득 목적
─ 기술적 연구 : 의사결정 영향 변수간 상호관계 파악
+ 상황변화에 따른 반응 변화 분석 및 예측
→ 횡단연구 : 여러 연구대상, 한 시점, 표본 큰 경우
→ 종단(시계열)연구 : 여러시점
→ 패널연구 : (횡단+시계열) 비교적 작은 규모, 여러 시점, 고정된 표본집단
─ 인과관계 연구 : 특정 현상간 인과관계 규명. 특정현상 구체적 정확한 이해, 설명, 예측
* 실험설계
─ 변수간 관계 명확히 규명 위해 효과적 연구, 분석 계획 수립
─ 전제조건
+ 실혐변수조작 : 결과에 영향주는 변수, 요인 인위적 변화나 조작
+ 외생변수 통제/제거 : 실험, 결과변수 외의 변수 통제
+ 실험대상 무작위 : 대표성 높임, 결과의 일반화 위해
* 실험설계 기본요소
─ 가설
─ 변수 : 각기 특성, 계량화
+ 독립변수 : 원인변수
+ 종속변수 : 결과변수
+ 매개변수 : 독립, 종속의 인과관계 연결 변수
+ 상황변수 : 독립변수의 영향력 크기 좌우하는 제 3의 변수
─ 외생변수통제
+ 성숙효과, 우발적 사건, 통계적 회귀, 측정방법 변화, 표본의 편중, 실험대상 소멸, 시험효과(주시험(익숙), 상호작용시험(일관성))
* 실험설계 종류
기준 | 원시실험설계 | 순수실험설계 | 유사실험설계 |
변수노출시점 대상통제 및 대상통제 |
X | O | X |
측정시점 및 대상통제 | X | O | O |
대상무작위 | X | O | X |
─ 원시설험설계 : 문제도출 및 순수실험설계를 위한 탐색적 연구
+ 단일집단 사후실험설계 : 실험변수 노출 후 사후 결과 측정
→ EX) TV 선거방송 효과 연구
+ 단일잡단 사전사후 실험설계 : 사전측정, 사후측정 차이 규명
+ 집단비교설계 : 노출집단과 비노출집단 비교
─ 순수실험설계 : 학문적으로 활용
+ 통제집단 사전사후 실험설계 : 실험대상 무작위, 실험집단, 통제집단 할당. 도입 전 후 결과 측정
→ 통제집단 실험변수X, 실험집단과 같은시기에 결과 사전사후 2번 측정
→ 상호작용시험효과 제거 못함
+ 통제집단 사후실험설계 : 사전측정 X, 상호작용효과 제거
→ 표본의 무작위 추출로외생변수 영향 제거
+ 솔로몬 4집단 설계 : 위의 2 설계 결합. 모든 외생변수 통제 가능한 실험설계
─ 유사실험설계 : 무작위 X, 측정대상과 시점만 통제
+ 2집단 사전사후실험설계 : 실험, 통제집단 분류는 하나 랜덤배치 불가시
+ 시계열 실험설계 : 실험조건상 연구대상을 실험, 통제분류 불가능시
→ 동일한 대상에 실험변수 도입 전, 후 반응. 일정한 간격 두고 반복적 측정
+ 반복실험설계 : 집단분류X, 실험변수가 일시적 변화될 가능성 높을 경우. 동일 대상에 일정한 기간 두고 반복측정
* 연구설계의 타당성
─ 외적 타당성 : 실제 적용시 얼마나 적합한가
─ 내적 타당성 : 적황시 설계하고 실험했는가? 외생변수 통제
* 척도
─ 이산형 자료 + 질적자료 → 명복자료(명목척도)
→ 서열자료(서열척도)
+ 수치자료 → 구간자료(등간척도)
─ 연속형 자료 + 수치자료 → 비율자료(비율척도)
* 척도 구성기법에 따른 유형
─ 어의차의 척도(의미분화척도법)
+ 매우나쁨 1 2 3 4 5 6 7 매우좋음
─ 리커트척도 : 여러 문항 태도측정, 측정치 합산하여 태도 분석. 등간척도
─ 보가더스척도 : 인종 등 사회집단 사회적 거리측정, 척도간 거리가 같다고 가정. 신뢰도 측정은 재조사만 가능
+ 1단계) 가족으로 받아들임
+ 3단계) 이웃으로 인정
+ 7단계) 나라에서 추방
─ 서스톤척도 : 우호, 비우호 극단 설정. 등간격 구분. 문항마다 척도값 부여
─ 거트만 척도(누적척도법)
+ 재생계수(CR) = 1-(오차총수 / (문항수*응답수))
+ 찬성 반대 문항 2~30개 수집
+ 200~300명 설문
+ 도형분석, 오차파악 → 재생계수 계산
+ 재생계수 90% 이상이면 좋음(단, 80%이상 동일 응답 문항 제외)
─ 소시오메트리 : 인간관계측정방법. 친화와 반발조사. 빈도, 강도에 따라 집단구조 이해 하는 척도
* 오차발생의 원인
─ 측정하지 않은 다른 특성차에 의한 오차 (EX, 지능)
─ 측정시 여건 (EX, 건강상태)
─ 측정연구자의 특성 (EX, 성별, 연령, 인종)
─ 측정도구관리 (EX, 조명, 소음)
─ 코딩오차 : 유사응답을 다르게 처리
─ 측정도구에 대한 이해 차이 : 응답자간 문제이해차이
* 측정오차
─ 체계적 오차 : 오차가 일정방향으로 나타남. 타당성 문제. 요인분석 사용
─ 비체계적 오차 : 일관성 없이 영향. 신뢰성 문제. Cronbach's alpha 계산
* 신뢰성
─ 동일 대상에게 반복 측정해서 동일한 결과 얻는 정도
+ 측정값 = True + Error
+ 총분산 = Var(T) + Var(E)
+ 신뢰성 = Var(T) / 총분산 (0~1 사이)
─ 신뢰성 측정
+ 재검사 : 시간차 두고 재검사. 외생변수 등 문제
+ 반분법 : 집단 평균값간 상관관계 조사
+ 내적일관성 : 동일개념 측정위해 여러항목을 이용하는 경우 측정법
→ Crombach's alpha 0.6~0.7 이상이면 신뢰성 높다 판단. 가장 많이 쓰임
─ 신뢰성 높이는 법
+ 측정항목 모호성 제거
+ 측정항목 늘림
+ 응답자가 모르는것은 측정 안함
+ 검증된 측정방법 사용
─ 측정위한 통계프로그램 사용방법
+ 항목분석, 요인분석을 만족스러울 때 까지 두가지 방법 반복시행
* 타당성
─ 측정하려 했던 개념을 제대로 측정한 정도
+ 요인분석(특히 개념타당성 측정)
─ 내적 타당성
+ 내용타당성(대표성) : 측정도구 자체가 제대로 측정 할 수 있는지. 주관적 판단
+ 기준에 의한 타당성(효과성) : 예측가능성. 예측타당성
+ 개념타당성(논리성) : 측정도구가 실제 무엇을 측정했는가, 조사자가 측정하고자 하는 추상적 개념이 실제 도구에 의해 적절히 측정되었는가, 즉, 도구가 얼마나 적절히 측정했는가
→ 집중타당성 : 동일개념 측정위해 최대한 다른 두가지 측정 방법 개발, 측정치간 높은 상관관계 존재해야 함
→ 판별타당성 : 서로다른 개념 측정치간 상관관계가 낮게 나와야 함
→ 이해타당성 : 특정개념을 어떻게 이해했는가
─ 외적타당성 : 현실에서 적용가능한가. 일반화 가능
─ 타당성 측정
+ 서로 상이한 개념에 대해 여러 도구로 측정
+ 측정치들간 요인분석
+ 요인분석 후 요인값에 의해 가설검증 가능
─ 타당성 높이는 법
+ 연구분야 충분한 지식 습득
+ 선행연구에서 타당성 인정받은 도구 사용
+ 사전조사 충분히 활용
* 표본추출관련 개념
─ 모집단 : 내용, 정도, 시점에 의해 정의. 무한, 유한 가능
─ 표본 : 모집단의 부분집합
─ 모수 : 모집단의 특정값
─ 통계량 : 표본의 특정값
─ 요소 : 정보수집단위(분석단위) ex, 개인
─ 표본단위 : 모집단의 개별단위. 개별 투표자, 사건 등
─ 표본프레임 : 표본단위가 수록된 목록
+ 프레임 설정이 중요. 모집단 일치성 높아야 함
* 표본추출과정
─ 모집단 확정 : 인구통계학, 지역, 시간 고려
─ 표본프레임 선정
─ 표본추출방법 결정 : 확률/비확률 추출방법
─ 표본크기 결정 : 예산, 시간 등 고려. 신뢰구간 접근법 또는 가설검증접근법 활용
─ 표본추출
* 표본추출 조사 고려사항
─ 모집단 대표 표본프레임 선정
─ 신뢰성 있는 결과도출 위해 표본정확성 확보
─ 비용과 시간 효율성 고려
* 표본추출의 문제점
─ 표본추출과 일반화 지향성
+ 표본추출방법의 선택 따라 다름
+ 비확률표본추출법은 일반화 어려움
─ 표본의 크기
+ 연구비, 통계적 의미로 중요
+ 충분한 자료량 필요
+ 표본크기와 통계적 검증력 문제
→ 표본크기 증대, 표본통계량 신뢰성 증대, 추정치 정밀도 증가, 통계적 검증력 향상, 통계적 유의한 결과 검출 가능성 증대
* 비확률 표본추출
─ 연구대상이 표본추출될 확률이 알려지지 않음. 인위적 추출
+ 모수추정 bias 존재 가능성
+ 표본분석결과 일반화 어려움
+ 표본오차 추정 불가능
+ 시간과 비용 적게 소요
─ 편의추출법 : 임의 시간, 장소에서 대상선정
+ 비용 적고 편리, 모집단 지식 보유로 추출 용이하고 정확도 큼. 전체표본 작을 때 유용
+ 연구 초기단계 질문 적용 타당성, 조사도구유용성 검증위해 이용
+ 표본대표성 확인못함, 분산/편견의 오류 통제불가, 모집단에 충분한 지식 있어야 함
─ 할당추출법 : 특성따라 세분된 각 집단 내에서 표본선정
+ 조사자 주관적 판단, 편의추출로 상업적 조사에서 널리 사용 ex) 인구분포, 지역별 할당
+ 같은 크기 무작위 추출법보다 적은 비용. 각 계층을 적절히 대표
+ 작위적 표본추출로 일반화 문제, 분류에 편견개입, 분류오차 가능성
* 확률표본추출
─ 연구대상이 표본으로 추출될 확률 알려짐. 무작위 추출
+ 확률이론, 무작위 방식
+ 모수추정에 bias가 없음
+ 표본분석 일반화 가능
+ 표본오차 추정가능
+ 시간과 비용 많이 소요
─ 단순무작위 추출 : 표본프레임의 표본에 일련번호. 일정수 표본 난수활용 무작위 추출
─ 체계적 추출법 : 일련번호, 등간격 번호 추출
+ 표본추출 용이, 조사 쉬움, 단순무작위보다 모집단 대표가능성 큼
+ 모집단 배열이 주기성이나 편향이 있을 경우 대표성 문제
─ 층화추출법 : 모집단 특정기준 서로 상이한 소집단 구분
+ 소집단 빈도 따라 적절한 수 표본 무작위 추출 (학과, 반 등)
─ 군집추출법 : 모집단을 군집으로 나누고 일정수 군집을 무작위 추출
+ 추출된 군집 내 모든 구성원 조사 (비용절감 목적)
* 표본수 결정
─ 표본수와 표본분포
+ 표본수 늘수록 모집단 추론 정확성 높아짐
+ 표본수 늘어날수록 표본분포가 모집단 참 값을 중심으로 집중
+ 늘수록 표본오차 감소
─ 표본크기
+ 허용가능오차(신뢰구간 절반)의 크기(e)와 신뢰수준 (1-a)을 고려하여 추출하고자 하는 표본크기(n) 산정
─ 표본크기는 표본오류와 반비례, 비표본오류와 비례. 즉, 표본이 클수록 비표본오류 증가, 표본오류 감소
* 1차자료 - 의사소통법
─ 설문지법 : 자료수집체계화, 조사목적을 초기에 공개
─ 서베이법 : 대인조사, 전화조사, 우편조사, 온라인조사
─ 면접법 : 조사목적공개, 자유로운 질의응답
+ 심층면접법 : 1명의 응답자와 1:1 면접, 정성조사
+ FGI : 표적 소비자 일반인, 어느정도 전문지식 보유자. 6~12명. 주제 자유로운 토론
─ 투사법 : 조사목적 모르는 상태, 단어, 문장완성 등
* 1차자료 - 관찰법
─ 응답자 행동. 태도를 조사자가 관찰기록
* 설문조사
─ 설문작성법
+ 내용 : 객관적 사실, 주관적 경험(태도)
+ 유형 → 폐쇄형 (객관식)
→ 개방형 (단답식)
→ 상황적 (서술식)
+ 설문양식
─ 장점
+ 한번에 일시측정, 도구변화에 따른 오류 줄임
+ 빠른 시간에 핵심정보 수집
+ 응답용이성, 정확성 높일 수 있는 형태 사전 제시 가능
─ 단점
+ 응답배경 원인분석 어려움
+ 응답자 적격여부 파악 어려움
─ 구성요소
+ 협조요청 : 취지, 조사기관
+ 식별자료 : 일련번호, 필요시
+ 지시사항 → 전반적 지시문 : 설문 전반 주의사항
→ 구체적 지시문 ; 문항별 설명
→ 면접자 지시사항 : 면접자에 대한 지시
+ 필요한 정보획득을 위한 문항
+ 응답자 분류자료 : 인구통계학적
─ 작성절차
+ 필요정보 결정
+ 자료수집방법 결정
+ 개별항목 내용결정
+ 질문형태 결정
+ 적절한 질문완성
+ 질문순서 결정
+ 초안지 작성
+ 설문지 사전조사
+ 설문지 완성
─ 질문형태
+ 개방형 질문 : 표본정보 없을 때, 코딩 어려움, 통계분석, 비교 어려움
+ 폐쇄형 질문 : 자료처리 용이, 상호배타적, 모든 응답 포괄해야 함. 원하는 응답 없을 수 있음
+ 양자택일형 : 신속한 응답과 처리 가능
+ 선다형 질문 → 카테고리 3~5개
→ 논리적, 배타적, 내용 총망라
→ 구체적 표현
→ 하나의 기준 제시
+ 서열식 질문 : 중요도, 선호도 등
─ 바람직한 설문서 작성
+ 어렵고 포괄적 용어 금지
+ 응답자가 일관되게 한가지 방향성
+ 유도질문 금지
+ 위협적 질문 금지
+ 한 문항은 한가지 내용만
* 수집자료 코딩규칙
─ 직관적 : 높은 숫자 높은 코드값 EX, 나이
─ 연역적 ; 가설로 나올 수 있는 응답 종류 파악
─ 상호배타적 : 응답은 1개의 범주만 속하게
─ 포괄적 : 모든 항목 포함(예시에)
─ 특정적 : 범주 범위가 너무 넓지 않게
* 분석기법 분류
─ 변수의 수
+ 일변량 분석 : 하나의 종속변수 설명
→ t검정, 분산분석, 회귀분석
+ 다변량 분석 : 여러 독립변수, 여러 종속변수
→ 다변량 분산분석, 다변량 회귀분석, 요인분석, 판별분석, 군집분석, 구조방정식 모형, 정준상관계수 등
─ 척도의 수
+ 모수통계 : 변수가 등간, 비율척도로 측정된 경우
+ 비모수통계 : 변수가 명목, 서열척도로 측정된 경우
* 통계학의 구분
─ 기술통계 : 통계적 자료를 정리, 요약 등 자료 특성의 계산방법과 관련
─ 통계적 추론 : 표본자료 이용, 표본정보 계산, 이 값을 근거로 모집단 특성 도출
+ 구간추정, 가설검정, 회귀분석, 적합도(통계적 유의성)
* 기술통계
─ 중심화 경향 : 평균, 중앙값, 최빈치
+ 모집단 평균, 표본평균, 중앙값, 최빈값
+ 다음 경우 평균보다 중앙값, 최빈값 사용
→ 자료의 수가 적을 때(여름온도)
→ 극단값이 섞여 있을 때
→ 질적자료 : 명목, 서열자료
→ 개방구간 가진 도수분포자료
─ 산포경향 : 범위, 분산, 평균절대편차
+ 범위 : 최대값 - 최소값
+ 평균절대편차 : 편차 절대값 평균(MAD). 표본값과 평균의 차를 절대값 한 값의 평균
+ 분산, 표준편차
─ 비대칭도 : 왜도, 첨도
+ 왜도
+ 첨보
* 정규분포
─ 특징
+ 종모양 곡선, 면적은 1
+ 평균 중심으로 좌우대칭
+ 최고높이 0.399/표본편차, 산포가 클수록 낮아짐
+ 변곡점은 (뮤 - 시그마), (뮤 + 시그마)
─ 표준정규분포
+ 기대값(뮤) 0, 분산 1
+ 표준정규본포의 확률분포는 Z, Z ~N(0,1)
+ 크기 n일때 표본평균의 통계량
→ E(엑스바n) = 뮤, Var(엑스바n)=시그마제곱/n, 시그마엑스바=시그마/루트 n
+ 모집단이 정규분포 N(뮤, 시그마제곱)일 때 표본평균의 분포
→ 엑스바n ~N(뮤, 시그마제곱/n)
+ 중심극한정리 : 표본평균 엑스바n이 n이 충분히 클 대 모집단 분포와 상관없이 근사적으로 N(뮤, 시그마제곱/n)의 분포를 따름
* 가설검정
─ 추정과 가설검정
+ 추정 : 미지의 모수 추정
+ 가설검정 : 미지의 모수의 값으로 추정한 값의 진위를 표본정보로 이용해 판정
─ 가설검정 : H1, H0('='포함) 모집단 모수 사용
─ 유의수준 : H0가 옳으나 H1 채택할 1종오류 최대치. a로 표시, 1%, 5%, 10%
─ 임계치/기각역 설정: H0이 =이면 양측, >, < 등이면 단측
─ 검정통계량 : 가설검정을 위한 표본의 통계량
─ 가설채택여부 : p값(유의확률)의 위치
* 가설검정 오류
H0 참 | H0 거짓 | |
채택 | True 확률 = 1-a |
제 2종오류 확률 = b |
기각 | 제 1종 오류 확률 = a(유의수준) |
True 확률 = 1-b(검정력) |
─ a와 b는 trade off
* 가설검정 종류
─ 검정대상 + 모집단의 평균 → 모집단의 수 1개 = t검정
→ 모집단의 수 2개 = t검정
→ 모집단의 수 3개이상 = 분산분석(ANOVA)
+ 모집단의 분산 → 모집단의 수 1개 = 카이제곱 검정
→ 모집단의 수 2개 = F검정
* 상관분석
─ 상관, 회귀, 분산분석 : 분산들간의 관계분석
─ 두 변수 사이의 관계 밀접한 정도. 등간, 비율척도
+ 공분산의 어느정도 커야함. 밀접한 선형인지는 제시 못함
─ 모집단의 공분산 : Cov(X.Y) = E[(X-뮤x)(Y-뮤y)]
─ 표본공분산 : 시그마xy추정위해
+ Cov(X,Y) > 0 정의 선형관계
+ Cov(X,Y) < 0 부의 선형관계
+ Cov(X,Y) = 0 선형관계 없음
─ 공분산 단점보완. 상관계수 사용(r)
+ 공분산 / x분산*y분산
+ 완전한 정의 선형관계(1), 선형관계 없음(0), 완전한 부의 선형관계(-1)
+ t분포 사용
─ |r|의 해석
+ ~0.2 : 관계거의 없음
+ 0.2~0.4 : 낮은 상관
+ 0.4~0.6 : 비교적 높은 상관
+ 0.6~0.8 : 높은 상관
+ 0.8~1.0 : 매우 높은 상관
─ 상관분석과 회귀분석
+ 두 변수간 관계규명시 둘 다 많이 사용
→ 상관분석 : 변수간 관계 설명
→ 회귀분석 : 한 변수로부터 다른 변수 변화 예측
─ 연관성분석 + 명목/서열 척도 = 교차분석
+ 서열 척도 = 스피어만 서열상관분석
+ 등간/비율 척도 → 제 3변수 통제 안함 = 피어슨 상관분석
→ 제 3변수 통제 = 편상관분석
* 회귀분석
─ 독립변수가 종속변수에 미치는 영향력 정도 파악. 종속변수 값 예측
+ 독립변수의 수 → 단순회귀
→ 다중회귀
+ 독립변수척도 → 일반회귀 (등간/비율)
→ 더미변수이용회귀 (명목/서열)
+ 독립/종속 변수간 관계 → 선형회귀
→ 비선형회귀
─ 전제조건
+ 특정 독립변수값 갖는 종속변수는 정규분포, 분산이 동일
+ 종속변수 값들은 서로 독립적
+ 독립변수 여러개 일 경우 독립변수간 다중공선성(공차한계 VIF) 없어야 함
─ 결정계수(R^2) : 1에 가까울 수록 설명력이 높음(바람직)
+ 결정계수(R^2)이 1에 가까울수록, 유의한F(p-value), t통계량(영향력) 클 수록 영향력 큼
* 분산분석(ANOVA)
─ 하나의 정량적 종속변수와 두 개 이상의 실험요소를 가진 하나 이상의 비정량(명목) 독립변수관계 설명
─ 셋 이상 모평균 비교위해 개발
+ 0.05 유의수준 개별검증 여러번 하면 결합 유의수준은 0.05보다 커짐
─ 독립변수(1개이상, 명목척도), 종속변수(단하나, 등간/비율) 사용
독립변수 | 종속변수 | |
분산분석 | 명목 | 등간/비율 |
교차분석 | 명목 | 명목 |
─ 분산분석 가정
+ 관찰치는 서로 독립적 확률변수(무작위성)
+ 각 모집단은 정규분포
+ 각 실험요소의 분산은 동일(동분산성)
* 변수들간의 관계
─ 공분산 도입. 얼마나 관계가 있는지 모름
─ 상관분석, 누가 원인이고 누가 결과인지 모름
─ 회귀분석(상관분석)
* 일원배치 분산분석
─ 독립변수가 1개
분산요인 | 평균자승 | |
집단간 | 3개집단 평균에서 각각 집단거리 | 자승합/k-1 = MSB |
집단내 | 각 집단 내 평균에서 거리 | 자승합/N-K = MSW |
+ 검정통계량 F = MSB / MSW
+ 유의확률 Fk-1, n-k
+ F값 클수록 0에 가까움. 채택
* 이원배치 분산분석
─ 2개 이상 독립변수가 하나의 종속변수에 미치는 효과
─ 주효과 분석
+ 고객만족에 미치는 영향. 지점/규모
→ 지점과 고객만족, 매장규모와 고객만족. 각자 보는 것
─ 상호작용효과 분석
+ 지점의 매장규모와 고객만족 합쳐 분석
* 교차분석
─ x^2. 명목/서열 척도 변수들간 연관성 분석
─ 변수들간 범주 교차셀의 빈도(도수)교차표. 상호 독립성이나 관련성 정도 분석
─ 150명 임의조사, 소득과 정치성향 a=0.05. H0 정치성향과 소득 무관, H1 유관. 검정
고소득 | 중간 | 저소득 | 계 | |
친여 | 45 | 30 | 15 | 90 |
친야 | 5 | 20 | 35 | 60 |
계 | 50 | 50 | 50 | 150 |
+ 기대도수표
고소득 | 중간 | 저소득 | 계 | |
친여 | 30 | 30 | 30 | 90 |
친야 | 20 | 20 | 20 | 60 |
계 | 50 | 50 | 50 | 150 |
+ 기대도수 = (행빈도의 합*열빈도의 합) / 총빈도의 합
+ x^2은 (45-30)^2/30 + (5-20)^2/20 + ... + (35-20)^2/20 = 37.5 (기각영역)
* 요인분석
─ 변수간 상호연관성(공분산, 상관관계) 분석, 공통적 작용하는 내재요인 추출, 변수의 수 줄이는 기법
─ 요인 : 몇 개의 변수가 공통적으로 가지고 있는 특성. 변수보다 상위 개념. 절대개념이 아닌 하위레벨 변수나 요인을 종합적으로 보는 상대적 개념
─ 목적
+ 변수의 수 축소, 변수간 상호 독립적 차원 찾기 위해(R-Type)
+ 많은 대상자들을 유사한 집단으로 묶기 위해 (Q-Type)
+ 동일한 개념 측정도구의 타당성 검증
+ 회귀, 판별분석 등 추가분석 위해
─ 종류
R-Type | Q-Type | |
축소대상 | 변수 | 응답자(케이스) |
목적 | - 인식된 요인검증 (확인적 요인분석) - 새로운 요인색출 (탐색적 요인분석) 주성분분석 : 변수 총분산 이용 공통요인분석:변수들간 공통분산 이용 |
─ 탐색적 요인분석 : 특별한 사전지식 결정사항없는 상태에서 변수간 내재적 관계 찾기
─ 확인적 요인분석 : 이미 개발된 모형이나 사전 지식기반으로 추출할 요인의 수와 요인에 속할 변수를 미리 확정, 옳은지 확인 목적
* 판별분석
─ 관측대상의 특성 나타내는 변수 이용 특정대상이 어느 집단에 속하였는지 예측. 선형 판별식 구하는 방법
─ 2개이상 집단으로 얻은 자료 이용, 각 집단을 가장 효과적으로 분류할 수 있는 선형식 구하기
+ ex) 기업도산여부, 고객대출여부, 고객이탈여부
─ 사용목적
+ 데이터 축소 : 불필요한 자료 제거
+ 추론/검정 : 여러 독립변수들이 그룹간 차이를 잘 나타내는지
+ 분류 : 기존자료 이용, 집단분류, 새로운 자료그룹 구분
+ 중요변수파악 : 독립변수의 상대적 중요성 파악
─ 계량적으로 측정된 (등간/비율) 척도 독립변수 이용, 명목척도 종속변수 분류(ANOVA와 반대)
+ 독립변수(등간, 비율) → 종속변수(명목, 서열)
* 군집분석
─ 개인 또는 여러 개체를 유사한 속성을 지닌 대상끼리 그룹핑하는 탐색적 다변량분석기법, 거리측정, 유사성 측정
─ 군집분석과 요인분석 차이
+ 요인분석 (변수 그룹화)
+ 군집분석 ( 개체 그룹화)
─ 군집분석과 판별분석 차이
+ 판별분석 : 사전집단정보 있는 경우 집단간 차별적 특성을 설명하는 변수 발견. 판별식 유도
+ 군집분석 : 사전 집단이 나뉘지 않음. 변수이용 개체 유사성 측정, 개체 집단화
─ 군집분석의 목적 : 유형탐색, 데이터 탐색, 데이터 제거, 가설검증, 가설도출, 모델적합도, 그룹에 기반한 예측(환자예측 등)
─ 군집분석 응용 : 세분시장 구분, 기업유형 구분, 소비자 집단구분 등
+ 요인, 판별, 분산분석 등과 함께 사용가능
─ 군집분석 종류
+ 군집대상 중복 없음 → 자료크기 작음 = 계층적 군집분석
→ 자료크기 제약없음 = 비계층적 군집분석
+ 군집대상 중복 있음 = 중복군집분석 프림(PRIM)
+ 계층적 군집분석 : 가까운 거리 대상들 하나씩 그룹핑, 순차적으로 다른 군집을 포함하는 큰 군집 형성
다른 그룹과 중복 허용 안하는 조건 하
→ 덴드로그램 : 자료크기 크면 분석 어려움
+ 비계층적 군집분석 : 초기에 구하고자 하는 군집수 정하고 설정된 군집의 중심에 가장 가까운 개체를 하나씩 포함. 최적군집 찾는 법. 많은 자료를 빠르고 쉽게 하지만 초기값에 따라 결과 달라짐
→ K-MEANS CLUSTERING
+ 중복군집분석 : 몇 개의 군집화 규칙을 상이하게 적용, 하나의 개체가 여러 군집에 동시 표함 가능 PRIM
* 보고서 작성
─ 서론 → 이론적 배경(문헌연구) → 연구모형(방법론) → 분석결과 → 결론
* 요약
상관분석 | 회귀분석 | 분산분석 | 교차분석 | 요인분석 | 판별분석 | 군집분석 | |
개요 | 두 변수간 밀접 정도 | 독립변수가 종속변수에 미치는 영향력. 종속변수 예측 | 셋 이상 모평균 비교 | 명목/서열 변수간 연관성(빈도) | 변수 수 줄이기 | 사전정보 있는 집단 특정 대상이 어떤 집단에 속하는지 판별 | 관측지 묶기 |
통계량 | 로, r (상관계수) |
R^2 (결정계수) |
|||||
분포 | t분포 | t분포 | F분포 | x^2카이제곱 | |||
척도 | 등간,비율 | 등간/비율 (일반회귀) 영목/서열 (더미변수이용) |
독립 명목 종속 비율 |
독립 명목 종속 명목 |
'상상의 창 블로그 > 배움의 창' 카테고리의 다른 글
양성과정_중소기업 관련법령 (2/2) (0) | 2020.05.24 |
---|---|
양성과정_중소기업관련법령 (1/2) (0) | 2020.05.23 |
양성과정_기업진단론 (0) | 2020.05.22 |
양성과정_영어 (0) | 2020.05.22 |
양성과정_회계학개론 (0) | 2020.05.21 |