Part 1. 마케팅 조사
Ⅰ. 문제의 정의
□ 조사계획서 작성
─ 조사의 필요성, 조사절차, 조사비용 등을 담은 마케팅 조사를 위한 계획서로 마케팅관리자가 경영자에게 마케팅
조사를 실시하도록 건의하기 위한 자료
─ 조사계획서의 내용
+ 조사의 제목 : 조사 계획명
+ 조사의 배경 : 마케팅 환경의 변화, 마케팅 전략의 변화 등으로 마케팅 의사결정이 필요한 문제가 발생했음을 설명
+ 조사의 목적 : 의사결정문제, 조사목적, 조사문제 등을 기술하여 경영자에게 조사가 필요하다는 사실을 명확히 전달
+ 조사의 범위, 조사유형과 수집할 자료 : 조사에 포함될 내용을 적시하고 실험, 서베이, 관찰 등 어떠한 조사를 할 것
인지를 기술하고 수집할 자료를 제시
+ 자료수집방법 : 누구를 대상으로 어떻게 자료를 수집할 것인지. 모집단, 표본추출방법, 표본의 크기 등 상세히 기술
+ 조사의 가치 : 조사의 결과 얻을 정보의 가치와 의사결정문제의 해결에 어떻게 활용될 것인가를 제시
+ 조사의 일정과 조사팀의 구성 : 조사의 일정을 제시하고 조사 참여자의 프로파일을 제시
+ 조사비용 : 소요되는 비용을 제시
□ 개념적 정의와 조작적 정의
─ 개념적 정의 : 하나의 개념을 정의하기 위해 다른 개념을 이용하여 묘사하여 내용을 한정짓는 것. 사전적 정의
─ 조작적 정의 : 개념적 정의에 의해 구체화된 추상적 개념을 실제 경험적 세계에서 측정 가능한 형태로 정의하는 것
─ 개념적 정의와 조작적 정의의 관계
+ 개념적 정의를 통해 용어의 의미가 보다 더 분명해지고 조작적 정의를 통해 경험적 세계에서 보다 구체화 되어
직접 측정 가능하게 됨
+ ex) 브랜드 충성도
→ 개념적 정의 : 브랜드에 대해 애착을 느끼는 정도
→ 조작적 정의 : 10번 구매 중 특정 브랜드를 구매한 횟수
□ 가설설정
─ 가설 : 잠정적 해답. 2개 이상의 변수 간의 관계를 설명하는 경험적으로 검증 가능한 진술
─ 가설의 조건
+ 명료 : 모든 사람이 명확히 이해할 수 있도록 설정
+ 가치중립적 : 연구자의 편견이나 가치를 배제
+ 검증가능 : 변수간의 관계를 경험적으로 측정 가능
─ 통계적 검증단계에서의 가설의 분류
+ 귀무가설(영가설)과 연구가설(대립가설)
Ⅱ. 조사설계
□ 조사설계 개요
─ 조사에 대한 전반적인 계획 수립
□ 조사방법
□ 탐색조사
─ 문제에 대한 통찰과 아이디어를 얻기 위한 조사
─ 정확한 절차 보다는 적절한 유연성 발휘
─ 기술조사나 인과조사를 위한 예비조사적 성격
─ 2차 자료 : 기존 자료 중 적절한 것 선택. 출판, 논문, 내부자료 등
─ 1차 자료 : 적합한 2차자료가 없을 경우 직접 수집. 심층면접, 표적집단면접, 투사법 등
─ 문헌조사, 전문가 의견조사, 심층면접법, 그리고 표적집단면접법
─ 가설의 개발 : 탐색조사를 통해 조사문제가 정의된 후 조사문제는 가설로 전환
□ 기술조사(Descriptive research)
─ 연구대상의 특성 또는 현상을 기술. 명확하고 구체적인 조사문제 해결을 위한 방법
─ 자료수집 방법으로는 서베이법과 관찰법
─ 횡단조사와 종단조사
+ 횡단조사 : 특정 시점에 1회 조사 (대부분 횡단조사)
+ 종단조사 : 조사대상을 반복적으로 조사 (다시점 조사)
─ 종단조사 : 조사대상을 고정해야 함
+ 여러 대상을 여러 번 하면 횡단조사를 여러 번 하는 것임
+ 보통 패널이라는 고정된 표본 이용. 소비자, 가구, 점포, 유통업자 등으로 구성. 일정기간 유지
+ 패널이 없어도 정기조사를 할 경우 대표성만 확보된다면 시점 간 조사들의 비교가 가능
□ 인과조사
─ 2개 이상의 변수들 간의 인과관계를 밝히는 것을 목적으로 시행
─ 변수간 인과관계에 대한 가설 설정, 자료수집과 분석을 통해 가설 검증
─ 인과관계 추론 방법
+ 결과에 영향을 미치는 변수를 찾았다 하더라도 결정적 관계가 아닐 수 있음
+ 확률적 관계이므로 추론만 할 수 있음
+ 다음 3가지 조건이 충족되면 인과관계가 있다고 추론 가능함
① 동반발생
+ X의 변화와 Y의 변화가 함께 발생하거나 가설이 예측하는 방향으로 발생
+ ‘광고비(X)를 늘리면 매출(Y)이 늘어난다.’가 성립하려면 광고비가 높은 제품이 광고비가 낮은 제품보다 매출이
높아야 함. 이럴 경우에도 인과관계가 확정은 아님
+ 원인 결과가 반대일 확률도 있음. 광고비가 낮아도 매출이 높은 경우 인과관계가 없다고 할 수도 없음. 증거를 발견
못한 것일 수 있음
② 시간적 선행성 : X가 변화하고 나서 Y가 일어나야 함
③ 대체 설명 부재 : 대체가능한 설명이 없어야 함
+ 앞의 두가지가 성립해도 다른 원인이 있다면 관계가 모호해짐
Ⅲ. 자료수집방법
자료의 종류
□ 2차자료의 종류
─ 내부 2차 자료 : 내부 회계자료, 마케팅 관련 내부자료 등
─ 외부 2차 자료 : 정부기관, 단체, 조사회사 등에서 제공하는 자료. 신디케이트 자료 포함
─ 신디케이트 자료 : 전문 조사회사에서 표준화하여 정기적으로 수집된 자료를 분석하고 회원 기업에 판매하는 자료
+ 일반적으로 패널 구성, 정기적으로 측정. 피플미터를 활용한 시청률 조사 등
+ 기관패널(패널 구성원이 소매상, 도매상 등으로 구성)
+ 1차 자료 수집보다 저렴, 바로 구매 가능. 대표성 문제 및 패널 신분노출로 사실적인 답변이 아닐 수 있음
□ 2차자료의 유용성
─ 조사문제의 명확한 규명
─ 문제에 대한 접근방법 사전 고찰
─ 적절한 조사 설계 제시
─ 조사문제에 대한 가설 제공
□ 2차자료의 적정성 판단 평가기준
─ 조사문제와 관련성이 있는가
─ 자료에 정확성과 타당성이 있는가
─ 자료가 시기적절하게 활용할 수 있는가
□ 2차자료의 한계
─ 적합성
+ 측정단위가 상이할 수 있음
+ 관련 변수의 정의와 범주 분류가 다름
+ 수집시점이 오래된 경우 적합성 문제 발생
─ 정확성 : 자료 수집 전 단계에 걸쳐 진행 중 오류가 발생할 확률이 높은데 조사자가 확인 및 수정할 수 없음
□ 1차자료의 종류
─ 정성조사 : 정량조사의 한계 때 사용 (응답자가 사회적 바람직한 방향으로 답변, 자신의 감정을 잘 모르는 경우 등)
─ 탐색 자료
+ 직접법 : 목적을 공개하고 조사
+ 간접법 : 목적을 숨기고 조사
─ 정량조사 : 자료를 계량화, 엄밀한 통계적 분석
─ 정량조사를 행하기 전 정성조사를 통해 문제를 정의하고 직관을 얻어야 함
탐색조사
□ 심층면접법
─ 조사자와 대상자가 격식을 차리지 않고 편안한 상태에서 1:1로 깊은 수준의 질문을 통해 조사
─ 조사자가 상당한 수준의 숙련된 커뮤니케이션 능력과 탐사능력이 있어야 함
─ 면접자에 따라 응답 결과가 바뀔 수 있음
□ 전문가 의견조사
─ 해당분야 전문가를 대상으로 의견 수렴
─ 심층면접과 표적집단면접의 두 형태로 활용 가능
─ 정형화된 질문보다는 융통성있는 질문을 하는 비구조화된 자료수집 방법
□ 표적집단면접 (FGI)
─ 6~12명 정도의 응답자 대상. 비구조화된 인터뷰
─ 자연스러운 분위기여서 깊은 생각 표출이 쉽고 감정변화까지도 분석 가능. 일반화 하기는 어려움
─ 사이버 표적집단면접도 점차 활용도가 커지고 있음
─ 장점 : 여러 사람들 간의 상호 교류와 의견 교환으로 개인이 얻지 못하는 독창적 아이디어와 정보 획득, 짧은 시간에
정확한 자료 수집
─ 단점 : 객관적이고 전문적인 표적집단의 선정이 선행되어야 함. FGI결과에 대해 사회자의 편견으로 해석상 오류발생
우려
□ 투사법
─ 응답자가 조사목적을 모르는 상태에서 응답자의 내면에 있는 신념이나 태도 등을 조사하는 방법
+ 사람은 의식적/무의식적으로 자신을 억제하려 노력하므로 실제 동기나 욕구를 모를 수 있음
+ 3자의 행위를 묘사하고 해석하게 하여 자신의 욕구 등을 무의식적으로 그 상황에 투사하게 함
─ 투사법의 종류
+ 문장완성법 : 미완성인 문장을 제시하여 응답자에게 나머지 문장을 완성하도록 하는 방법
+ 단어연상법 : 한 단어를 제시하고 응답자가 그 단어로부터 연상되는 단어들을 순서대로 나열하도록 하는 방법
+ 그림묘사법 : 응답자에게 그림을 제시하고 그 그림이 무엇을 묘사한다고 생각하는지를 묻는 방법
+ 만화완성법 : 특정 상황에 대한 만화들을 제시하여 응답자가 그 만화들을 새로 연결되도록 순서를 정함으로써
만화를 완성하도록 하는 방법
1차자료 수집방법
[서베이법]
□ 서베이법의 장단점
─ 장점
+ 대규모 조사 가능
+ 대규모 표본으로 조사결과 일반화 가능
+ 직접 관찰할 수 없는 동기, 개념 측정 가능
+ 자료의 코딩, 분석이 용이
+ 계량적 방법으로 분석, 객관적 해석
─ 단점
+ 설문지 개발이 어려움
+ 깊이 있고 복잡한 질문 어려움
+ 조사에 오랜 시간 소요
+ 응답률이 낮다
+ 부정확하고 성의 없는 응답 가능성
□ 시행 방식에 따른 종류
─ 대인 인터뷰법 : 면접원이 응답자를 만나 인터뷰. 어려운질문 가능. 시청각 자료 활용 가능
+ 방문인터뷰 : 가정이나 사무실 방문. 사생활 보호 및 비용 문제로 잘 안함
+ 몰인터셉트 인터뷰 : 백화점이나 상가에서 쇼핑객 대상. 단시간 효율적 자료 수집. 대표성 낮음
+ 컴퓨터 이용 인터뷰 : 면접자가 컴퓨터 내 질문 읽고 답하는 형식. 면접원이 컴퓨터 조작 지원. 보조적 질문에
답하며 진행. 키오스크 설치 시행
+ 장단점 : 높은 응답률, 질문의 모호함이나 어려움은 면접원이 해결. 대량의 자료수집, 순차적 질문 진행, 익명성
보장 못함, 민감한 질문 어려움. 면접원 편향, 접촉범위가 좁음
─ 전화 인터뷰법
+ 비교적 저렴한 비용으로 신속히 시행. 면접원 통제가 비교적 용이
+ 길고 복잡한 질문 불가능. 면접원 편향 가능성
─ 우편 인터뷰
+ 패널 구성하여 패널에게 정기적으로 우편으로 서베이
+ 면접원 편향문제 없음. 응답자가 편리한 시간에 응답하므로 다양한 질문 가능, 접촉 범위가 넓고 익명성 보장.
상대적으로 비용이 가장 저렴
+ 회수기간이 오래 걸려 시행속도가 느림. 응답자 통제 불가능. 다른사람의 응답 가능성. 응답률이 낮음. 선물 증정 등
혜택 제공 필요. 낮은 응답률은 무응답 편향 초래
─ 온라인 인터뷰
+ 이메일 인터뷰 : 간단한 질문이 아니면 잘 시행되지 않음
+ 인터넷 인터뷰 : 웹사이트에서 응답자가 바로 답하는 방식. 응답률이 낮음. 비용 저렴하고 신속히 처리, 즉시 분석
가능
□ 무응답 오류
─ 개념 : 응답자들의 거절이나 비접촉으로 인한 오류
─ 오류를 줄이기 위한 방법
+ 정확한 DB구축
+ 조사가능한 시간에 유리한 조사방법 선정
+ 리스트 클리닝
+ 리스트 스크리닝
+ 설문조사 참여 동기부여 및 보상수단 활용
□ 설문지 종류
구분 |
공개적 |
비공개적 |
구조화 |
조사의 목적이 공개. 정해진 형식대로 답하는 설문. 가장 보편적으로 사용 |
조사의 목적을 밝히지 않음. 민감이슈 실험에서 실험목적을 밝히지 않거나 다른 목적이라고 위장하여 사용 |
비구조화 |
체크리스트 형식 응답에 대응하여 유연하게 질문 조정 탐사방식. 심층면접에 널리 사용 표적집단면접법에서 활용 |
목적도 밝히지 않고 정형화된 형식도 없는 설문지로 탐색조사의 투사법에 사용 |
□ 질문과 응답형태의 결정
─ 개방형 질문 : 응답대안이 없이 자유롭게 답하는 비정형 형태
+ 다양하고 광범위한 응답. 창의적 응답 가능
+ 코딩하기 어렵고 혼란 초래 가능성
+ 서베이법에서는 부분적으로 사용. 탐색조사에서 주로 사용
─ 고정형 질문 : 응답대안을 제시하고 하나를 선택하게 하는 형식
+ 응답이 쉽고 분석하기 용이
+ 응답자의 생각을 완전히 반영한다고 보기 어려움
+ 척도점을 이용한 질문도 널리 이용
□ 설문지 작성시 유의사항
─ 가급적 쉽게 표현, 애매모호한 표현 금지
─ 유도성 질문 금지
─ 한번에 2가지 이상 질문 금지
─ 응답할 수 없는 질문 금지
─ 응답이 중복 되면 안됨
─ 민감하게 반응할 가능성 있는 질문은 우회적으로
□ 질문순서의 결정
─ 질문순서는 응답에 영향을 미침
─ 단순하고 흥미를 느낄만한 질문으로 시작
─ 일반적인 내용을 앞부분에, 점차 구체적이고 답하기 어려운 전문적 내용 질문
─ 난처한 질문은 가급적 중반 이후 배치
─ 설문지가 긴 경우 중요한 질문을 앞쪽에 배치
─ 응답자에 대한 기초정보(인구통계적, 사회경제적 정보)는 사적 정보로 민감. 가장 뒤에 배치
[관찰법]
□ 관찰법의 개념
─ 관찰법의 개념
+ 행동 패턴을 기록하고 분석. 조사자가 전혀 개입하지 않음. 대부분 관찰되는 사실을 모르게 함
+ 장점 : 비교적 편향이 없는 자료 획득, 의사표현이 불가능한 것도 조사, 행동 측정
+ 단점 : 신념 태도, 선호도 등 확인 불가능, 결과를 일반화하기 어려움, 관찰자마다 해석이 다를 수 있음, 관찰과
기록의 시차 발생하여 정확도가 떨어짐
□ 관찰법의 종류
─ 공개적 관찰 : 관찰되는 것을 드러냄. 특수한 경우
VS. 비공개적 관찰 : 일반적. 대상자의 인구통계학적 정보 등 수집하는데 한계, 사생활 침해 우려
─ 구조화된 관찰 : 사전에 관찰할 내용을 명확히 결정. 오류 가능성 줄이고 신뢰성 높힘
VS. 비구조화된 관찰 : 조사와 관련된 모든 행동을 관찰자의 판단에 따라 관측(탐색적 조사)
─ 자연상태 관찰 : 실제상황과 동일. 외적 타당성 높으나 특정 관찰을 위해 많은 시간과 노력 필요
VS. 인위적 환경 관찰 : 특정 환경을 조성하고 관찰(실험). 외적 타당성 문제 발생
─ 인적관찰 : 사람이 직접 관찰. 실사, 재고조사 등. 예상치 못한 행동 발견. 객관적이지 못함
VS. 기계적 관찰 : 기계 시스템 이용. 객관적이고 정확한 관찰
─ 직접관찰 : 행동이 일어나는 시점에 관찰자가 직접 관찰 (계산대에서 판매수량 관찰)
VS. 간접관찰 : 행동의 결과 발생한 흔적을 관찰 (쓰레기통 관찰)
[실험법]
□ 주요 용어
─ 독립변수 : x, 실험자가 값을 변화시켜 그 영향을 측정하고 비교하는 변수
─ 종속변수 : y, 독립변수에 의해 영향을 받아 값이 변하는 변수
─ 매개변수 : A가 B에 영향을 주고 B가 C에 영향. A(독립변수) → B(매개변수) → C(종속변수)
─ 조절변수 : 독립변수와 종속변수 사이에 영향이 크면서도 불명확한 영향을 미치는 변수. 즉, 조절변수가 존재할 때만
독립변수와 종속변수 사이의 이론적 관계가 성립
+ A가 C에 영향을 줄 때 B에 따라 C의 결과가 달라지는 변수.
+ EX, 학습시간(독립변수) → 성적(종속변수), 공부방법(조절변수)
─ 외생변수 : 독립변수 외 종속변수에 영향을 미치는 모든 변수
─ 통제 : 실험과정에서 외생변수를 고정시키는 것
─ 랜덤화 : 실험대상이 되는 집단에 피 실험자들이 동질된 분포가 되게 만드는 과정
□ 실험의 종류
─ 실험실 실험 : 인위적 환경, 외생변수 통제 용이
+ 시간과 경비가 적게 소요. 실험 사실이 경쟁자에게 노출 최소화
+ 실제 환경에서 동일하게 재현할 수 있다는 보장 없음
─ 현장실험 : 자연스러운 상태에서 실험
+ 현실성이 높으나 외생변수 통제가 어려움.
□ 시험마케팅
─ 마케팅부서에서 행해지는 실험은 시험마케팅으로 신제품 출시 전 디자인 선택, 가격, 광고선택 등이 매출에 끼치는
영향 확인 (test bed)
─ 표준시험마케팅 : 실제 시장에서 실험
+ 외적 타당성 높음, 마케팅 믹스의 효과 구체적으로 실험 가능
+ 많은 시간과 비용 소요, 경쟁사들에게 활동 노출
─ 통제시험마케팅 : 몇 개의 선택된 점포에서 실시
+ 비용, 시간 절약, 노출 위험성 낮아짐. 제한된 범위실시로 신뢰성 낮음
─ 모의시험마케팅 : 모의쇼핑점포 만들어 피실험자 대상
+ 비용과 시간 절약, 경쟁사노출 극소화, 높은 통제가능성으로 정확한 예측 가능
+ 실험실 실험으로 외적 타당성 낮음
□ 실험의 타당성
─ 내적 타당성 : 독립변수가 종속변수의 변화를 잘 설명하는지
+ 실험실 실험이 높음(외생변수 통제)
─ 외적 타당성 : 다른 시점이나 장소에서도 동일한 결과를 얻는 정도
+ 실험환경이 실제 상황과 비슷해야 함. 그러나 실제상황은 외생변수로 내적 타당성 낮아짐
─ CF) 신뢰성 : 같은 장소건, 다른 장소건 다시 측정해도 동일한 결과를 얻을 수 있는지
─ Trade-off : 실험 목적에 따라 하나를 희생해야 함. 이론연구는 내적 타당성을, 실무 적용은 외적 타당성 높여야 함
□ 내적 타당성 저해 요인 (외생변수)
─ 혼란 : 외생변수가 종속변수에 영향을 미치는 것. 혼란을 끼친 변수를 혼란변수
─ 역사적 오염 : 실험 중 특이한 사건의 발생
+ O1 – X – O2일 경우 O1 → O2 영향. 오직 X만 영향이라는 보장 못함
+ 경제 악화, 다른 광고 접촉 등 외부효과 있을 수 있음. 실험실에서도 반복실험 등 영향 가능성
+ 제거방법 : (A/B 테스트) 두집단을 O1 실행, 한집단만 X 진행(실험집단, 나머지는 통제집단).
─ 성숙효과 : 시간의 흐름에 따라 피실험자의 특성 변화하여 종속변수에 영향
+ 피실험자의 피곤, 익숙해짐 등
+ 테스트가 익숙해지면서 점수가 실력이나 상황에 상관없이 변화함
─ 시험효과 : 처음 측정값의 영향으로 두번째 측정이 다르게 나타나는 효과
+ 주시험효과 : O1가 O2에 영향. 자신의 태도 일관성 유지하려는 경향.
O1 – X – O2 | O1 → O2
+ 상호작용시험효과 : O1로 관심도가 올라가 X에 영향
O1 – X – O2 | O1 → X
─ 측정의 편향 : 측정도구나 방법이 변화하여 측정값이 변화하는 현상
─ 표본선택의 편향 : 표본을 잘못 선택. 통제집단과 실험집단이 동질적이지 않음
─ 통계적 회귀 : 1차 시험에서 부정적인 사람이 X의 효과가 아닌 단순 통계적 회귀일 수 있음 고려
─ 실험대상의 소멸 : 피실험자 중 일부 이탈
□ 외생변수 통제방법
─ 제거 : 영향 미칠 수 있는 외생변수 모두 제거
─ 균형화 : 외생변수 영향 동일하게 받을 수 있도록 실험집단, 통제집단 선정
─ 상쇄화 : 하나의 실험 집단에 두 개 이상의 실험 변수가 가해질 때 사용하는 방법. 외생변수의 강도가 다른 상황에서
다른 실험을 함으로써 외생변수 영향을 상쇄화
─ 무작위화 : 가장 강력한 방법. 실험 집단과 통제집단을 모집단에서 무작위 추출, 외생변수 영향력 없앰
□ 실험 디자인의 유형
─ (엄격함 정교함) 순수실험 디자인 ↔ 유사실험 디자인 ↔ 사전실험 디자인 (간편함)
□ 순수실험 디자인
─ 실험처치 및 측정의 대상과 시기의 통제 가능. 주로 실험실 실험
─ 내적 타당성위해 실험집단과 통제집단 필요. 서로 비교 가능해야 함, 무작위로 두 집단에 할당해야 함
① 사전사후 무작위 집단 비교 디자인
- 무작위 할당(선택편향 없음), 역사적 오염, 성숙효과, 주시험 효과는 양 집단에 모두 작용하므로 제거됨
- 상호작용 시험효과 영향이 있다면 EG에만 발생한 것이므로 제거할 수 없음
실험집단 EG : [랜덤화 R] O1 X O2
통제집단 CG : [랜덤화 R] O3 O4
- 실험의 효과는 (O2 - O1) - (O4 - O3)
② 무작위 집단비교 디자인 : 사전 특정 없음. 사전 동일하다고 가정(무작위 할당). 시행이 간편하여 널리 사용
- 역사적 오염, 성숙효과, 시험효과 등 없음. 무작위지만 서로 차이가 없는지 확인 불가
EG : [R] X O2
CG : [R] O4
③ 솔로몬 네 집단 순수실험 디자인 : 가장 엄격하고 정교하나 시행이 어렵고 비용문제로 널리 하진 않음
EG1 : [R] O1 X O2
CG1 : [R] O3 O4
EG2 : [R] X O5
CG2 : [R] O6
□ 사전실험 디자인
─ 무작위 배치 않고 디자인에 따라 CG 없이 진행
─ 엄격성과 정교성이 떨어져 내적 타당성 확보가 어려우나 간단히 시행할 수 있음
─ 엄격성과 정확성이 덜 요구되는 경우 사용
① 일회적 사례연구 : 통제집단 없음. 단일 실험집단만 반응 측정
- 인과관계는 볼 수 없으나 대략적인 영향 파악. 사전 측정방법이 없는 경우(신제품 출시)
EG : X O
② 단일집단 사전사후 측정 디자인 : EG만 있으나 사전 측정
- 실험처치효과 측정 가능하나 역사적 오염, 성숙효과, 소멸효과, 측정편향 등 발생
EG : O1 X O2
③ 집단비교 디자인 : 무작위 할당하지 않음
- 측정을 한번만 하므로 역사적 오염, 성숙효과, 소멸효과, 시험효과, 측정편향은 없음
- 무작위 할당을 하지 않으므로 표본선택의 편향으로 내적 타당성 저해
EG : X O1
CG : O2
□ 유사실험 디자인
─ 연구자가 대상과 시기는 통제할 수 있으나 랜덤배치가 어렵거나 순서통제가 어려울 경우 사용. 내적 타당성을 상당한
수준까지는 확보 가능
+ ex) 고등학교 3학년 50명 대상 실험의 경우 10개 반에서 5명씩 랜덤추출
→ 반 편성시 랜덤하게 배치했으므로 어느정도 랜덤화 가정
① 비동질 집단비교 디자인
- 순수실험디자인의 사전사후 무작위 집단비교 디자인과 유사
EG : O1 X O2
CG : O3 O4
② 독립표본 사전사후 디자인 : 표본을 분리하지 않고 서로 독립적인 2개 표본 대상
- 한 표본은 측정만 하고 다른 표본에만 실험 처치 후 측정, 비교
- 현장실험의 경우 실험처치 전 후 비교가 어려우므로 독립표본 사전사후 디자인 자주 활용
표본 1: O1
표본 2 : X O2
측정과 척도
□ 변수와 구성개념
─ 변수 : 구체적 변수와 구성개념을 모두 지칭하는 것. 척도를 이용하여 관심대상이 되는 개체의 속성을 측정한 값으로
나타낼 수 있는 특성
+ 협의의 변수 : 구체적 성격이 강한 변수만 지칭
+ 구성개념 : 추상적인 성격이 강한 변수
+ 계량변수(매출액, 이윤 등), 행동변수(반복구매, 선택), 추상적 변수(충성도, 이미지 등)
─ 구성개념 : 추상적 성격이 강한 변수로 덜 추상적인 하위개념들로 구성
+ 브랜드 충성도(구성개념)은 구매빈도, 선호도 등의 하위개념을 묶어서 형성
─ 변수는 다양한 측정도구로 측정하나 구성개념은 추상적이므로 객관적 측정도구가 없음
□ 구성개념을 정의하는 방법
─ 개념적 정의 : 하위개념을 이용하여 구성개념을 정의. 측정이 불가능함
─ 조작적 정의 : 추상적인 구성개념을 구체적이고 측정 가능하도록 조작하는 것
+ EX) (구성개념) 지적능력 (조작적 정의) IQ. 인간의 지적능력은 수리해결능력과 언어 구사능력 이라고 조작적 정의
후 두가지 능력을 측정하여 합한 것
+ EX) 브랜드 충성도는 브랜드에 대한 애착을 느끼는 정도라고 개념적 정의를 하면 측정 불가
→ 10번의 구매 중 특정 브랜드 구매 횟수로 조작적 정의를 하면 측정 가능
□ 측정
─ 미리 결정된 규칙에 따라 구성개념이나 변수를 수치나 기호로 할당하는 과정
+ 수치나 기호로 할당하는 규칙 정하는 것이 중요. 수치나 기호는 1:1대응관계여야 함
□ 척도의 종류와 특징
─ 척도 : 측정 과정에서 수치나 기회를 척도라는 연속적 체계에 위치. 즉 측정하는 도구
척도 |
특징 |
예 |
계산가능 통계량 |
가능한 분석법 |
명목척도 |
대상을 구분할 목적 Category나 class로 구분 하나의 부류에만 속해야 함 계산 불가 |
성별, 학번 |
최빈값, 빈도수, 퍼센트 |
이항검정, 카이스퀘어검정, 사인테스트 |
서열척도 |
상대적 위치. 범주와 서열정보 크기의 차이는 의미 없음 순서만 중요 |
학급석차, 선호순서 |
명목척도 통계량 + 백분위수, 중앙값 |
스피어만 서열 상관계수, 순위를 이용한 분산분석 |
등간척도 |
간격이 동일. 거리개념이 있음. 범주 서열 정보 있음. 절대 ‘0’이 존재하지 않음 덧셈, 뺄셈 가능 |
온도, 지능지수, 소비자만족지수 |
서열척도 통계량 + 평균, 표준편차 |
서열척도 통계분석 + 피어슨 상관계수, 분산분석, 요인분석, 회귀분석 등 |
비율척도 |
절대 ‘0’을 포함한 다른 척도의 성질을 다 가지고 있음 모든 통계분석 가능 |
무게, 길이, 나이, 가격, 시장점유율 |
모든 통계량 |
기하평균, 조화평균, 변동계수 등을 포함한 모든 통계분석 |
□ 척도개발시 고려사항
─ 척도법이란 : 측정과정에서 기호나 상징물에 할당되는 연속적 체계를 만드는 과정
─ 척도점의 수 : 응답할 대안의 개수
+ 일반적으로 5점척도와 7점척도가 많이 사용. 자료수집방법도 척도점의 수 결정에 영향
+ 세밀한 통계분석을 요할 경우 척도점의 수를 많게 하는 것이 유리
+ 상관계수는 척도점의 수에 큰 영향. 척도점의 수가 적으면 상관계수가 낮아짐
─ 짝수 척도점 VS. 홀수 척도점
+ 홀수 척도점은 중간값이 존재. 중립적 태도가 많을 경우 홀수 사용
+ 중간화 경향 발생 우려시 짝수 척도점 활용. 단, 중립의견에게는 다른 선택을 강요하게 됨
─ 균형척도 VS. 불균형척도
+ 균형척도는 긍부정 척도가 동일하나 불균형 척도는 한쪽으로 치우쳐져 있음
+ 한쪽으로 의견이 치우친 것이 알려져 있는 경우 불균형 척도 사용하여 불균형 보정
─ 응답의 강요성 여부 : 의견 없음, 잘 모르겠다 등 중간적 답변을 척도에서 제거. 강요된 평가척도
+ 중립된 의견이 많을 것으로 판단되면 중간값 제시 필요
─ 척도 표현 형태 : 별 척도, 게이지 척도(피자, 온도계 등), 알파벳, 숫자 등
─ 척도 설명 : 척도점 설명을 전부 다 할 것인가 끝에만 할 것인가, 설명을 넣을 것인가 등
+ 가급적 모든 척도점에 설명을 달아 혼란을 막는 것이 좋음. 조사목적에 따라 적절히 판단
□ 척도법의 분류
─ 비교척도법 : 비메트릭 척도법. 여러 대상을 직접 비교하여 측정
─ 메트릭 척도법 : 다른 대상과 관계없이 측정. 비율척도나 등간척도의 형태
□ 비교 척도법
─ 같은 기준으로 측정되어 비교가 가능, 응답자가 쉽게 이해할 수 있고 적용이 간편
─ 서열척도 이므로 통계량과 통계분석이 제한적. 측정 시 적용된 대상을 넘어 일반화 어려움
① 쌍대비교척도법 : 두 대상 중 하나 선택. 측정값은 서열척도
- A, B, C를 측정시 A – B, A – C, B – C로 짝을 지어 선호하는 것 측정
- 다차원척도법(MDS) 등 다양한 분석기법을 위해 사용
- 대안수가 적은 경우 응답이 쉽고 결과가 명확하나 많아지면 경우의 수가 너무 커짐
- 소비자가 현실에서는 2개씩 비교하지 않으므로 비현실적
- 상대적 선호도는 알지만 절대적 선호도 파악은 어려움. 비선호 제품군일 수 있음
② 순서서열척도법 : 대상 전체를 동시에 고려하여 기준에 따라 순위를 정하는 방법
- A, B, C의 선호도 조사시 순서로 나열이나 순위 부여
- 서열척도의 형태이고 상대적 의미만 있으므로 1순위라고 선호된다고 볼 수 없음
- 쌍대비교척도법보다는 현실적이고 이해가 쉽고 노력이 적게 소요
- 대안의 수가 많아지면 쌍대비교척도법보다 더 어려워질 수도 있음
③ 고정총합척도법 : 총합을 정해주고 기준에 따라 대상별로 점수 할당
- 서열척도의 성격이 강하나 중요도가 없으면 0을 할당할 수 있음
- 두배 중요하면 두배수치 할당 가능하므로 비율척도로 볼 수도 있음
- 대상이 너무 적을 경우 결과가 부정확할 수 있고 과도하게 많으면 응답이 어려워짐
- 예시에서 응답자가 중요하게 여기는 속성(변수)이 빠져 있을 수 있음
- 속성에 따라 결과가 달라질 수도 있음
□ 메트릭 척도법
① 연속형 평가척도법
- 2개의 대비가 되는 개념 사이에 응답자가 느끼는 위치 표시
- 만들기 쉬우나 표시한 위치 파악이 어렵고 대충 하는 경우가 있어 신뢰도 낮음. 잘 사용 안함
② 리커트 척도법
- 주어진 문장을 읽고 동의하는 정도. 5내지 7점의 등간척도
- 마케팅 조사에서 주로 사용. 관리도 쉽고 응답자 이해도 쉬운편
③ 의미차별화 척도법
- 상반되는 형용사적 표현을 양쪽 끝에 표시, 응답자가 적절한 위치에 체크
- 일반적으로 7점척도. 서열척도 성격도 있으나 간격이 같은것으로 가정하고 등간척도도 간주
- 이해와 답하기 쉬우나 형용사적 표현 만들기가 어려움
- ex) 밝다 _ O _ _ _ _ _ 어둡다 동적이다 _ _ _ O _ _ _ 정적이다
④ 스타펠 척도법
- 한가지 개념에 대하여 0을 제외하고 -5에서 +5까지 10점 척도로 측정. 응답자 혼란 우려
- ex) -5 -4 -3 -2 -1 직원이 친절하다 +1 +2 +3 +4 +5
타당성과 신뢰성
□ 척도의 평가
─ 구성개념을 척도로 측정하기 어려움. 반드시 제대로 했는지 타당성과 신뢰성 평가 필요
─ 타당성 : 측정값이 구성개념을 얼마나 잘 나타내는지 여부 ( )
─ 신뢰성 : 반복측정해도 동일한 결과가 나오는지
─ 타당성과 신뢰성의 관계
+ 타당성이 높으면 항상 신뢰성이 높게 나타남
+ 신뢰성이 낮으면 항상 타당성이 낮게 나타남
+ 신뢰성이 높으면 타당성이 높을 수도 낮을 수도 있음
+ 타당성이 낮으면 신뢰성이 높을 수도 낮을 수도 있음
□ 오차
─ 측정값 = 실제값 + 오차, 오차 = 체계적 오차 + 비체계적 오차
─ 체계적 오차 : 특정 패턴이 있는 오차. 타당성 여부
─ 비체계적 오차 : 특정 패턴이 없는 오차. 신뢰성 여부. 완전히 제거는 불가능
[타당성]
□ 타당성 평가
─ 측정대상의 실제값을 알지 못하므로 타당성 확인은 어려움
─ 기준 타당성, 내용 타당성, 구성 타당성을 만족시키면 타당성이 있는 것으로 추정
□ 기준 타당성(Criterion Validity)
─ 구성개념을 측정B가 잘 측정한다고 알려짐. 그 구성개념을 측정A로 측정
+ A가 기준 되는 B와의 상관관계가 높으면 구성개념을 잘 나타낸다고 추정
─ EX) 대학에서 입학생 선발시 우수학생이 될 입학생을 선정하려고 함. 우수학생이라는 구성개념 측정위해 졸업
학점으로 평가. 졸업학점이 높은 학생과 그 학생들의 입학 때 여러 지표간의 상관관계를 연구하여 상관관계가 높은
변수를 신입생 선발 기준으로 선택. 그 변수가 논술이어서 신입생을 논술점수로 선발. 졸업생 학점 측정 B, 신입생
논술성적 측정 A. 기준타당성이 높은 측정
+ 측정 A와 측정 B간의 상관계수를 타당성계수라고 함
─ 측정 B가 발생하는 시점에 따라 예측타당성과 동시타당성으로 구분
+ 예측타당성 : 측정 A는 현재, 측정 B는 미래시점. 즉, 측정 A를 이용해 측정 B를 예측, 위의 예시
+ 동시타당성 : 측정 A와 측정 B가 같은 시점에 측정. 브랜드 구매행위 예측에 타당성이 높은 방법과 새로운 방법을
동시에 적용 후 상관관계 비교시 상관관계가 높다면 동시타당성이 높은 측정법이라 할 수 있음
□ 내용 타당성(Contents Validity)
─ 구성개념의 내용을 충분히 대표하는가
+ 타당성의 정도를 주관적으로 판단(내용 타당성의 한계)
+ 구성개념의 내용을 얼마나 반영하는지 알기 쉽지 않고 구성개념을 모두 포함하는 측정은 없음
□ 구성 타당성(Construct Validity, 개념타당성)
─ 구성개념들간의 이론적 관계와 측정값들 간의 상관관계가 일치하는 정도
─ EX) 구성개념 A와 이를 측정한 측정1, 구성개념 B와 이를 측정한 측정2에서
+ 구성개념A와 구성개념 B와의 이론적 관계와 측정1과 측정2의 상관관계가 연관 있어야 함
① 집중(수렴) 타당성 : 하나의 구성개념을 측정하기 위해 여러 척도를 사용한다면 측정값 사이에 상관관계가 높아야 함
- 브랜드 충성도 측정위해 구매횟수와 구매의사를 측정 시 두 값의 상관관계가 높아야 함
② 판별 타당성 : 서로 상이한 구성개념의 측정시 상관관계가 낮아야 함
- 다양한 브랜드를 추구하는 지표와 브랜드 충성도 지표간 상관관계가 낮을 수록 타당성 높음
③ 법칙 타당성 : 서로 다르지만 관련이 있는 구성개념을 측정하는 척도간 이론적으로 예측되는 방향으로 상관관계가
있으면 타당성이 있다.
- EX) 구성개념 A와 구성개념 B간에 이론적 관계가 있고 구성개념B를 측정한 측정2는 구성개념B를 잘 설명한다고
알려져 있을 경우 측정1과 측정2의 관계를 분석하여 구성개념
- A와 B의 이론적 관계를 확인할 수 있다면 법칙 타당성이 높다고 할 수 있음
□ 타당성 향상 방안
─ 구성개념이나 변수를 정확히 이해해야 함
─ 가능한 여러 측정방법을 개발, 측정하여 수렴타당성을 검토해야 함
+ 상관관계를 낮추는 측정방법을 제외해 가며 수렴타당성 높여감
─ 용어를 명확히 정의하여 응답자와 조사자가 서로 개념을 다르게 이해하지 않도록 함
─ 다른연구에서 타당성을 검증받은 측정법 사용
[신뢰성]
□ 신뢰성 측정방법
─ 반복 측정방법
+ 일정시간 간격으로 두번 측정하여 두 측정값의 상관관계 평가 (2주~4주 간격)
+ 시간소요, 고비용으로 많이 사용되지 않음
+ 시간변화에 따라 실제값이 변화할 수 있음
+ 시간간격이 짧을 경우 처음 응답이 두번재 응답에 영향 (주시험 효과)
+ 첫번째 응답내용이 기억나 동일하게 답변할 위험성
─ 내적 일관성을 이용
+ 구성개념을 다항목으로 측정시 측정한 변수간의 상관관계가 높을수록 내적 일관성이 높음
+ 반분법 : 측정항목들을 양분하여 측정하고 양분된 그룹 간 상관관계를 계산. 측정항목 양분에 따라 상관관계가
달라질 수 있음. 극복 위해 크론바흐의 알파가 개발됨
+ 크론바흐의 알파 : 2개의 항목간 상관관계를 모두 계산하여 상관계수의 평균을 구한 값을 변형
+ 크론바흐의 알파는 0에서 1 사이. 클수록 신뢰성이 높음 0.8~0.9면 바람직. 0.6 이상이면 받아들임.
알파값이 작을 때는 상관관계가 낮은 항목을 찾아내어 제거함으로 신뢰성 높임
─ 대안항목 신뢰성 : 동일대상에 대하여 동등한 두가지 척도를 가지고 일정 시간 간격을 두고 측정
□ 신뢰성 향상방법
─ 구성개념을 정확히 이해하여 이론적으로 일관성 있는 항목들을 개발
─ 신뢰성이 높다고 인정되어 널리 쓰이는 측정방법 사용. 사용 후 신뢰성 측정
─ 크론바흐의 알파가 가장 널리 사용되는 신뢰성 측정방법
+ 일반적으로 측정항목의 수나 척도점의 수를 늘리면 알파값이 커짐(신뢰성 높아짐)
+ 다른 항목과 상관관계가 적은 항목을 제거함으로 신뢰성 높일 수 있음
+ 단, 응답이 어렵고 오래 걸릴 수 있음
Ⅳ. 표본설계
□ 표본오차 비표본오차
─ 전수조사는 비표본오차때문에 기대보다 정확하지 않고 많은 비용과 시간 소요
+ 전수조사가 불가능한 조사도 있음. 불량률 조사 등
─ 대부분 표본조사 실시. 모집단의 일부를 조사대상으로 추출하는 과정을 표본추출이라고 함
─ 비표본오차 최소화 방법
+ 응답자 오류 : 표본이 모집단 잘 반영할 수 있도록 정확한 표본프레임, 조사명부 조사, 조사원 교육 철저, 설문내용
명확, 측정도구가 조사목적에 적합여부 확인
+ 면접자 오류 : 응답자가 질문을 제대로 이해하도록 명확한 설문, 성실응답 유도
+ 조사자(연구자) 오류 : 코딩점검, 자료기입 점검
□ 표본추출과정
□ 표본추출방법
─ 비확률표본추출방법 : 조사자의 의도가 표본추출과정에 개입되는 방법
+ 대표성 낮으나 비용과 시간이 적게 듬
+ 마케팅조사에서 엄격한 확률표본추출이 어려우므로 많이 사용
─ 확률표본추출방법 : 모집단 연구대상이 표본으로 선정될 확률이 사전에 결정.
+ 조사자 의도가 추출과정에 개입되지 않고 무작위로 표본이 추출됨
+ 대표성이 높으나 시행이 어려움
확률표본추출방법 |
비확률표본추출방법 |
결론을 내릴 수 있다 |
탐색적 특성을 가지고 결론을 내리기 어렵다 |
표본오차가 상대적으로 크다 |
비표본오차가 상대적으로 크다 |
모집단이 비동질적일 때 더 효과적이다 |
모집단이 동질적일 때 사용 가능하다 |
시행이 복잡하고 어렵다 |
시행이 간단하고 편리하다 |
통계학적으로 정교하다 |
통계학적으로 한계가 있다 |
시간, 경비, 노력이 많이 든다 |
시간, 경비, 노력이 상대적으로 적게 든다 |
확률표본추출방법
□ 단순무작위 표본추출
─ 가장 기초적인 표본추출방법
─ 모집단 구성원들이 표본으로 선정될 확률 사전에 알려져 있고 동일하도록 추출
─ 난수표나 난수발생 프로그램으로 추출
─ 사전 정해진 허용오차범위 내에서 모집단 대표하기 때문에 대표성이 높음
─ 모집단 구성요소에 일련번호 부여해야 하는 어려움(목록 확보 등)
□ 층화표본추출
─ 모집단이 몇 개의 이질적 집단으로 나뉘어 있고 표본이 작은 경우 단순무작위는 문제 발생
─ 등급 등 특징을 갖는 집단을 나누고 비중별로 고르게 추출
─ 추출절차
+ 모집단을 특성을 잘 대표하는 몇 개의 층으로 나눔. 각 층은 내부적 동질, 외부적 이질
+ 전체적으로 필요한 표본 수를 정한 후 각 층의 크기에 비례하여 층당 추출 표본수 결정
+ 각 층에서 단순무작위추출
─ 불비례적 층화표본추출(할당층화 표본추출) : 층의 중요도에 따라 표본수 할당
─ 표본의 대표성 확보, 층간 차이점 분석 가능. 층의 구분이 적절하지 않을 경우 대표성 낮아짐
□ 군집표본추출
─ 모집단이 여러 개 동질적 소규모 그룹으로 구성. 각 그룹은 모집단 대표할 수 있는 다양한 특성일 경우 사용
─ 군집들이 서로 유사, 각각 모집단을 상당히 대표할 수 있음. 군집을 다 하지 않고 무작위로 적절히 선택
+ 군집 내 요소들은 서로 이질적으로 다양한 특성, 군집들은 서로 동질적이어야 함
─ 지역표본추출 : 몇 개의 지역을 선정하여 조사
─ 장점 : 조사에 소요되는 시간이나 경비를 줄일 수 있음
─ 단점 : 선출된 집단 내 표본들이 서로 동질적이면 선택된 소집단이 모집단을 충분히 대표한다 할 수 없음
□ 체계적 표본추출
─ 구성원에 어떤 순서가 있을 경우 일정한 간격을 두고 표본 추출 (선거일 출구조사)
+ 매번 k번째 연구대상을 표본으로 선택
+ 몰인터셉트 인터뷰
─ 순서가 있거나 일련번호를 매길 수 있어야만 사용 가능
─ 순서에 어떤 주기성이 있을 때 특정 특성을 가진 사람들만 추출될 수도 있음
비확률표본추출방법
□ 편의표본추출
─ 조사자가 편리한 장소와 시간에 접촉하기 쉬운 대상들을 표본으로 추출
─ 모집단 구성원이 상당히 동질적이라고 가정하고 시행
─ 적은 비용과 시간으로 추출할 수 있으나 대표성이 낮음
□ 판단표본추출
─ 조사자가 조사목적에 접합하다고 판단하는 구성원들을 표본으로 추출
─ 도메인 전문가들이 대표성을 가진다고 판단하는 경우 사용
─ 선정된 표본이 실제로 대표성을 가지는 경우는 효과적이나 주관적 판단일 수 있음
□ 할당표본추출
─ 모집단을 특성에 따라 세분집단으로 구분하고 조사자의 주관적 판단에 따라 대표성이 가급적 확보될 수 있도록
정해진 비율에 따라 각 세분집단에서 표본의 수를 할당
─ 층화표본추출과 비슷하나 추출하는 표본 개수를 판단에 의해 무작위가 아니게 추출
─ 비확률표본추출방법 중 정교한 방법으로 시간적 경제적면에서 장점이 있어 널리 사용됨
□ 눈덩이 표본추출
─ 확률표본추출방법 또는 판단에 의해 적절한 표본을 선택, 조사 후 선택된 조사대상자들이 적절한 대상자를 추천하여
표본을 추출해 나가는 방법
─ 처음에 확률표본추출방법으로 선정했더라도 최종 표본은 비확률표본이 됨
─ 조사를 거듭할 수록 표본이 눈덩이처럼 커진다고 해서 붙은 이름
─ 조사자가 조사대상자를 찾기 어렵고 조사대상자들끼리 사회적 네트워크 형성시 활용
+ 사회적으로 민감하여 노출을 꺼리는 경우. 신천지 조사(?)
+ 몇 명을 선택하여 조사 후 아는 사람들을 추천하게 하여 표본 추출
─ 인구통계학적 또는 사회통계적 특성이 유사할 수 있음
─ 매우 희귀한 특성을 가진 사람들이나 사회적 노출을 꺼리는 사람들을 조사하기에 적합
─ 전체 모집단과 동떨어진 특성을 가진 사람들이 선정될 가능성이 있어 대표성 문제 가능성 있음
□ 표본 크기의 결정
─ 비확률표본추출방법은 예산과 시간에 따라 조사자가 판단
─ 확률표본추출방법은 모집단의 분산, 신뢰수준, 허용오차에 따라 결정
+ 추정분산이 클수록 표본이 커야 함
+ 신뢰수준이 높을수록 표본이 커야 함 : 90%(Z=1.645), 95%(Z=1.96), 99%(Z=2.575)
+ 허용오차가 작을수록 표본이 커야 함
─ 평균추정을 위한 표본크기 결정
─ 비율추정을 위한 표본크기 결정
Part 2. 통계학
□ 가설검정 종류
검정대상 |
모집단의 수 |
분석 |
모집단의 평균 |
1개 |
t검정 |
2개 |
t검정 |
|
3개 이상 |
분산분석 (ANOVA) |
|
모집단의 분산 |
1개 |
검정 |
2개 |
F검정 |
□ 분석별 특징
구분 |
차이 검증 |
교차 분석 |
분산 분석 |
상관분석 |
회귀분석 |
요인 분석 |
판별 분석 |
군집 분석 |
|||
피어슨 |
스피어만 |
일반 |
더미 |
||||||||
척도 |
독립 |
명목 |
명목 |
명목 |
비율 |
서열 |
비율 |
명목 |
비율 |
비율 |
비율 |
종속 |
비율 |
명목 |
비율 |
비율 |
서열 |
비율 |
명목 |
비율 |
명목 |
||
분포 |
t, Z |
|
F |
t |
t |
|
Z |
|
|||
통계량 |
|
|
|
, (상관계수) |
(결정계수) |
|
|
|
연관성 분석1 - 검증
□ 평균비교 차이검증
─ [사례] 기계조립 공장에서 조립순서 바꾸면 조립시간이 주는지 조사
+ t값 1.649, 유의확률(양쪽) 0.119이므로 0.05보다 커서 차이가 없다고 결론
+ F값 0.061, 유의확률 0.807로 0.05보다 상당이 커서 분산이 동일하다는 가설기각 못함 (등분산 가정됨)
─ 표본의 값들이 짝을 이루고 있으며 짝을 이룬 값들을 비교하는 경우
+ 짝을 이룬 값들은 서로 독립적이지 않으며 모집단은 하나가 됨
+ 이 때도 t-test사용하나 검증통계량과 자유도가 다름
□ 교차분석
─ 카이제곱. 두 범주형(명목) 변수간 연관성(독립성) 분석
─ 변수들간 범주 교차셀의 빈도(도수)교차표. 상호 독립성이나 관련성 정도 분석
+ 자유도 : (행의 수 - 1) × (열의 수 - 1)
─ [사례] 150명 임의조사, 소득과 정치성향 a=0.05. H0 정치성향과 소득 무관, H1 유관. 검정
구분 |
고소득 |
중간 |
저소득 |
계 |
친여 |
45 |
30 |
15 |
90 |
친야 |
5 |
20 |
35 |
60 |
계 |
50 |
50 |
50 |
150 |
+ 기대도수 = (행빈도의 합*열빈도의 합) / 총빈도의 합
구분 |
고소득 |
중간 |
저소득 |
계 |
친여 |
30 |
30 |
30 |
90 |
친야 |
20 |
20 |
20 |
60 |
계 |
50 |
50 |
50 |
150 |
+ 카이제곱은 (45-30)^2/30 + (5-20)^2/20 + ... + (35-20)^2/20 = 37.5 (0.05일 때 =5.99<37.5, 기각영역)
─ [사례] 조사자 3명이 종업원을 A, B, C, D, E로 업무평가. 조사자에 따라 평가가 차이가 있는가? (독립적이지 않은가?)
[분산분석]
□ 분산분석
─ 차이검증 평균비교 중 집단이 3개 이상이고 분산이 같을 경우 사용
+ 0.05 유의수준 개별검증을 여러번 하면 결합 유의수준은 0.05보다 커짐
─ 독립변수(1개이상, 명목), 종속변수(단하나, 비율) 사용
|
독립변수 |
종속변수 |
분산분석 |
명목 |
등간/비율 |
교차분석 |
명목 |
명목 |
─ 인자의 수준을 하나의 집단으로 가정, 집단과 집단이 얼마나 떨어져 있는가를 기준으로 집단들 간의 평균차가 있는지
판단
+ 집단간(인자 수준 간) 분산이 차지하는 비율이 높아지면 집단들이 떨어져 있음
─ 분산분석 가정
+ 관찰치는 서로 독립적 확률변수(무작위성)
+ 각 모집단은 정규분포
+ 각 실험요소의 분산은 동일(동분산성)
─ 분산분석의 원리
|
A |
B |
C |
|||
|
3.0 7.0 5.0 4.0 6.0 |
8.0 5.0 6.0 7.0 4.0 |
3.0 7.0 5.0 4.0 6.0 |
9.0 6.0 7.0 8.0 5.0 |
4.7 5.0 5.0 5.2 5.1 |
5.8 5.8 6.0 6.0 6.4 |
평균 |
5.0 |
6.0 |
5.0 |
7.0 |
5.0 |
6.0 |
분산 |
2.5 |
2.5 |
2.5 |
2.5 |
0.035 |
0.06 |
+ A와 B에서 두 모집단간 평균차가 B가 더 큼. A에 비해 B가 두 평균값들의 분산(집단간)이 더 큼 (A=1, B=4)
+ A와 C에서 두 모집단간 평균차가 C가 더 큼. 집단내 분산이 더 작음
+ 표본 평균값 간의 차이가 클수록(집단간 분산이 클수록), 각 표본의 요소들간의 차이가 작을수록 (집단 내 분산이
작을수록) 모집단 평균값 간에 차이가 있을 가능성이 높음
□ 일원배치 분산분석
─ 독립변수가 1개
+ F값 클수록 0에 가까움. 채택
─ [사례] 광고시안 4개 평가 점수가 차이가 있는지
|
제곱합 |
자유도 |
평균제곱 |
F |
유의확률 |
집단간 |
559.369 |
3 |
186.456 |
2.856 |
0.064 |
집단내 |
1240.631 |
19 |
65.296 |
|
|
합계 |
1800.000 |
22 |
|
|
|
+ F값이 2.856, 유의확률 0.06로 유의수준 0.05보다 크기 때문에 기각 안됨.
→ 시안에 따라 차이가 없음
□ 이원배치 분산분석
─ 2개 이상 독립변수가 하나의 종속변수에 미치는 효과
─ 처치효과
+ 주효과 분석 : 각 독립변수가 종속변수에게 미치는 영향. 고객만족에 미치는 영향. 지점/규모
→ 지점과 고객만족, 매장규모와 고객만족. 각자 보는 것
+ 상호작용효과 분석 : 한 독립변수가 다른 독립변수의 변화에 따라 종속변수에 미치는 영향
→ 지점의 매장규모와 고객만족 합쳐 분석
+ ex, 탄산음료. 당도(高, 低), 탄산(高, 低)일 경우
→ (a), (b) 고단맛보다 저단맛일 때 호의적. 단맛이 태도에 미치는 영향은 탄산에 따라 달라지지 않음.
상호작용효과 0.
→ (a) 주효과 있음(고탄산 선호, 저단맛 선호), (b) 탄산은 주효과 미미
→ (c) 고탄산은 고단맛 일 때, 저탄산은 저단맛 일 때 선호. 단맛 정도가 태도에 미치는 영향은 탄산 정도에 따라
달라짐. 상호작용 효과 있음
→ (d) (c)와 같은 효과이나 강도가 더 강함
─ [사례] 신제품 광고 3가지 대안 개발, 소비자들이 좋아하는 광고 선택. 남녀간 태도 다르다 생각, 남녀 중 어느 집단이
어떤 광고를 더 좋아하는지 알고 싶음. 남녀 각각 9명을 6개 cell에 할당, 광고 세가 지 중 하나 보여줌. 광고태도를
0.0~5.0(간격 0.1) 척도 표시
+ 이원분산분석표
+ 광고대안들에 대한 태도는 성별에 따라 다른가?(a=0.05)
→ 상호작용항목의 유의성 F=7.755>F(0.5, 2, 12)=3.89임. 즉, 유의하므로 성별에 따라 광고대안의 태도가 다름
연관성 분석2 - 관계분석
□ 변수들간의 관계
─ 공분산 도입. 얼마나 관계가 있는지 모름
─ 상관분석, 누가 원인이고 누가 결과인지 모름
─ 회귀분석(상관분석)
─ 상관, 회귀, 분산분석 : 분산들간의 관계분석
□ 공분산
─ 두 변수 사이의 관계 밀접한 정도. 등간, 비율척도
+ 공분산 값이 어느정도 커야 밀접한 선형인지 제시 못함
─ 모집단의 공분산
─ 표본공분산 : 표본이 주어질 때, 를 추정하기 위해 사용
+ Cov(X,Y) > 0 정의 선형관계
+ Cov(X,Y) < 0 부의 선형관계
+ Cov(X,Y) = 0 선형관계 없음
□ 상관분석
─ 공분산 단점보완. 상관계수 사용(r)
+ 완전한 정의 선형관계(1), 선형관계 없음(0), 완전한 부의 선형관계(-1)
+ t분포 사용
─ |r|의 해석
+ ~0.2 : 거의 관계없음
+ 0.2~0.4 : 낮은 상관
+ 0.4~0.6 : 비교적 높은 상관
+ 0.6~0.8 : 높은 상관
+ 0.8~1.0 : 매우 높은 상관
─ 상관분석과 회귀분석
+ 두 변수간 관계 규명시 둘 다 많이 사용
→ 상관분석 : 변수간 관계 설명
→ 회귀분석 : 한 변수로부터 다른 변수 변화 예측
변수의 척도 |
제 3의 변수 통제여부 |
분석 |
명목/서열 척도 |
|
교차분석 |
서열 척도 |
|
스피어만 서열상관분석 |
등간/비율 척도 |
통제안함 |
피어슨 상관분석(일반적) |
통제함 |
편상관분석 |
─ 스피어만 서열상관분석
[회귀분석]
□ 회귀분석
─ 독립변수가 종속변수에 미치는 영향력 정도 파악. 종속변수 값 예측하는 선형모델 산출
구분 |
종류 |
내용 |
독립변수의 수 |
단순회귀분석 |
1개 |
다중회귀분석 |
2개이상 |
|
독립변수의 척도 |
일반회귀분석 |
등간척도, 비율척도 |
더미변수를 이용한 회귀분석 |
명목척도, 서열척도 |
|
독립변수와 종속변수와의 관계 |
선형회귀분석 |
선형 |
비선형회귀분석 |
비선형 |
─ 전제조건
+ 특정 독립변수값 갖는 종속변수는 정규분포 이루어야 하며, 분산이 동일해야 함
+ 종속변수 값들은 서로 독립적
+ 독립변수가 여러개 일 경우 독립변수간 다중공선성(공차한계 VIF) 없어야 함
─ 결정계수 : 1에 가까울 수록 설명력이 높음(바람직)
+ 결정계수가 1에 가까울수록, 유의한F(p-value), t통계량(영향력) 클수록 영향력 큼
─ 회귀분석의 기본 가정
+ 독립변수와 종속변수 간의 선형성 가정
+ 오차의 정규성 가정 : 오차(종속변수의 관측치와 추정치간의 차이). X의 어떤 값에 대해 여러개의 y가 존재하면
여러개의 오차가 발생. 그 경우 오차들은 평균‘0’의 정규분포를 따름
+ 오차의 등분산 가정 : 오차들의 분산은 X의 모든 값에 걸쳐서 일정함
+ 오차의 독립성 가정 : 오차들은 서로 독립적. 의 변화에 따라 오차들이 패턴이 생기면 안됨
─ 회귀식을 이용하여 Y값 추정시 회귀식을 발견한 X의 범위 내에서만 가능함
□ 단순회귀분석
─ 회귀선 추정원리 : 적합도 이용
+ 적합도 : 관측값과 직선까지의 거리가 최소인 직선
+ 최소자승법 : 잔차의 제곱의 합.
─ [사례] 독립변수 광고비, 종속변수 매출액
+ R제곱값은 독립변수가 총 변동을 얼마나 줄여주는지. 독립변수가 종속변수를 얼마나 잘 설명하는지
→ R제곱값이 0.715, 수정된 R제곱이 0.686으로 모형이 적절함(잘 설명함)
+ F값은 회귀선이 설정되어 오차를 줄인 정도. 즉 얼마나 적절하게 설정되었는지.
→ F값이 25.062로 유의확률 0.001수준에서 유의함
+ 회귀식 : 36.731 + 1.804 × 광고비
□ 다중회귀분석
─ 독립변수가 k개인 회귀선
─ [참고] 더미변수 활용한 다중회귀분석
+ 명목척도로 측정한 변수를 회귀분석의 독립변수로 하여 분석할 때 사용
+ 더미변수의 수 = 범주의 수 - 1
+ [사례] 종속변수 매출액, 범주가 4개면 더미변수는 3개이고 다음과 같이 입력
범주 |
더미변수 1 (D1) |
더미변수 2 (D2) |
더미변수 3 (D3) |
봄 여름 가을 겨울 |
0 1 0 0 |
0 0 1 0 |
0 0 0 1 |
→ B0(상수)=60, B1=40, B2=-10, B3=10, B4(광고비)=20일 경우
→ 해석 : 봄이 기준, 여름은 봄에 비해 매출액이 40 많음, 가을은 10 적음, 광고비에 따라 매출액이 20씩 증가함
→ 의미 : 더미변수를 이용하여 회귀분석함으로써 명목척도로 측정된 독립변수의 영향을 제거하여 남은 독립변수
들과 종속변수의 관계를 보다 정확하게 측정할 수 있음. 문제에서 계절이 매출액에 미치는 영향을
더미변수들을 이용하여 제거함으로써 광고비가 미치는 진정한 영향을 파악할 수 있음
─ [사례] 독립변수 광고비, 판매원수, 종속변수 매출액
+ R제곱 0.949로 회귀선이 종속변수의 변동을 잘 설명
+ F값이 84.040, 유의확률 0.000이므로 유의함
+ 표준화된 베타 : 변수간 단위가 다름. 어떤 변수가 영향이 큰지 파악
→ 판매원수(0.611)가 광고비(0.473)보다 매출에 영향이 큼
+ 회귀식 : -3.618 + 1.008 × 광고비 + 16.887 × 판매원수
□ 다중회귀분석에서의 유의할 문제
─ 다중공선성
+ 단순회귀분석할 경우 유의적인 독립변수가 다중회귀분석시 비유의적이 될 수 있음
+ 그 독립변수가 다중회귀분석에서 다른 독립변수들과 높은 상관관계를 갖기 때문에 발생
+ 이런 현상을 공선성이라 하고 독립변수가 3개 이상이면 다중공선성이라고 함
+ EX, 한 지역 아파트가격을 종속변수, 방의 수, 평수를 독립변수로 하여 다중회귀분석시
→ 두 독립변수들은 높은 상관관계를 갖고 둘 중 하나는 비유의적으로 나타날 가능성이 높음
+ 동시 투입되는 독립변수들 간에 상관관계가 0인 경우는 사실상 없음
→ 다중공선성 문제가 발생하기 쉬움
+ 다중회귀분석 결과 해석시 어떤 독립변수들 계수가 비유의적으로 나타나는 경우 다중공선성 점검
+ 회귀분석의 목적이 어떤 변수가 종속변수에 어떤 방향으로 어느정도 영향을 주는지 조사하는 것이라면 다중공선성
유의해야 함
+ 단, 다중회귀식을 발견하여 종속변수값의 예측만 한다면 다중공선성은 문제될 것 없음
+ [사례] 한 방송국 65세 이상 시청자 위한 TV프로그램 개발. 25명 대상 설문조사
→ 일일평균TV시청시간, 배우자 동거여부, 연령, 교육기간
→ 연령이 비유의적으로 나타남. 연령만 단순회귀분석하면
→ 유의확률이 0.079로 보다 유의적이 됨. 단측검정한다면 p-value=0.0395로 a=0.05에서 유의적
→ 세 변수간 상관관계를 보면 교육기간과 연령이 강한 부의 상관관계(-0.501)를 가짐. 그 영향으로 비유의적으로
나타남
|
교육기간 |
동거여부 |
연령 |
|
교육기간 |
Pearson상관 유의확률(양측) N |
1
25 |
0.079 0.709 25 |
-0.501 0.011 25 |
동거여부 |
Pearson상관 유의확률(양측) N |
0.079 0.709 25 |
1
25 |
0.141 0.503 25 |
연령 |
Pearson상관 유의확률(양측) N |
-0.501 0.011 25 |
0.141 0.503 25 |
1
25 |
+ 두 변수간 상관관계가 높지 않아도 다중공선성 있을 수 있음
→ 한 독립변수가 다른 두 개 이상 독립변수들과 개별적 상관관계가 낮을 수 있지만 독립변수들의 결합과 높은
상관관계를 가질 수 있음
→ 공차 또는 분산팽창요인(VIF)을 볼 필요가 있음
→ 분산팽창요인(VIF)는 공차의 역수값으로 VIF가 높을수록 공선성이 높음. 연령의 공차가 0.717로 제일 적으므로
다중공선성이 가장 높으나 0보다 상당이 크므로 심각하지는 않음
+ 다중공선성 해소 방법
→ 각 입력변수를 제거/추가하면서 회귀계수의 변동정도를 파악
→ 상관관계가 높은 독립변수 중 하나 혹은 일부를 제거한다
→ 변수를 변형시키거나 새로운 관측치를 이용한다.
→ 자료를 수집하는 현장의 상황을 보아 상관관계의 이유를 평가하여 해결한다.
─ 과적합 문제
+ 표본의 크기가 작을 경우 상관계수가 큰 값으로 나타날 수 있음. 과적합 문제 발생
+ 과적합 문제 : 적합도가 높지 않은데 단지 표본의 크기가 작아서 높게 나타날 수 있음
→ 특히 독립변수의 수가 많은데 표본이 작은 경우 큰 문제 발생
→ 가급적 표본의 크기를 최소한 독립변수의 10배는 되어야 함
요인분석
□ 요인분석
─ 목적
+ 공통요인분석(확인적 요인분석) : 분석 대상이 되는 변수들의 기저 구조 정의 목적
+ 주성분분석(탐색적 요인분석) : 다수의 변수를 소수의 요인으로 축약하기 위한 목적
→ 설명은 주성분분석 내용임
→ 음식점 설문. 대기시간, 청결, 음식 맛, 신선도를 변수로 조사시 대기시간과 청결이 유사하고 음식 맛과
신선도가 유사한 결과가 나왔다면 대기시간과 청결은 ‘서비스’, 음식 맛과 신선도는 ‘음식의 질’ 이라는 요인
으로 해석
─ 특징
+ 독립변수와 종속변수가 없음. 변수간 상관관계가 분석의 토대
+ 모집단의 특성을 추정하지 않음. 기술통계기법
+ 변수의 척도는 등간, 비율척도
+ 표본은 최소 50개 이상, 100개 이상이 바람직
+ 상관관계가 높은 변수끼리 그룹핑 하는 것으로 변수간 상관관계가 너무 낮으면 부적합(±0.3 이하)
─ 요인의 추출(추출요인 개수)
+ 아이겐값 : 한 요인의 설명력. 한 요인에 대한 ‘요인적재값의 제곱의 합’
→ 1 이상 갖는 요인수 만큼 추출
→ 요인적재값 : 각 변수와 요인간의 상관계수 (-1 ~ +1)
+ 전체 요인들의 설명력 : 요인들의 설명력 합이 어느 수준 이상이 되어야 함
→ 사회과학에선 60% 내외
+ 스크리 도표 : 아이겐값이 큰 폭으로 떨어지다가 완만하게 되는 구간 직전까지의 요인수 추출
+ 사전에 요인 수 결정 : 연구자가 몇 개의 요인이 적절하다는 것을 사전에 알 경우
─ 요인의 회전
+ 요인행렬 : 요인분석결과 산출되는 요인과 변수들의 상관관계(요인적재값)를 나타내는 행렬
+ 요인분석 → 비회전 요인행렬 도출(어떤 변수가 어떤 요인과 높은 관계인지 불명확) → 추출된 요인회전(요인
구조가 명확해짐)
→ 요인구조 : 변수와 요인간의 구조
+ 회전방법 : 직각회전방식과 사각회전방식 중 직각회전방식을 주로 사용
→ VARIMAX : 요인행렬 열(column)의 분산합계를 최대화 하여 열을 단순화 (적재값을 -1, 1, 0에 가깝게 함).
가장 많이 사용
→ QUARTIMAX : 행(row) 중심. 한 변수가 한 요인은 높게, 다른 요인은 낮게
→ EQUIMAX : 두 가지 절충
─ 요인행렬 해석
+ 요인적재값은 -1 ~ +1 사이 값. ±0.5 이상일 때 실제적 유의성이 있음
+ 각 변수의 적재값을 여러 요인에 걸쳐 비교, 가장 높은 적재값 선택. ±0.5 이상
+ 커뮤낼리티 검토 : 보통 0.5보다 큰 것이 바람직
→ 커뮤낼리티 : 해당 변수가 다른 변수들과 공유하는 분산의 양. 즉, 한 분산이 추출된 요인들에 의해 설명되는
정도 (0~1)
→ 변수 1의 회전된 요인적재값이 요인 I (0.03), 요인 II (0.94)일 경우
+ 각 요인의 명칭 부여 : 같은 요인에 적재된 변수간 공통적 특성이 없을 경우 ‘불확정 요인’으로 명칭을 붙이거나
이질적인 변수를 제거하고 다시 분석
─ 요인분석결과 사용
+ 회귀, 판별분석 등 추가적 분석에 사용가능
+ 요인점수 계산하여 독립변수로 사용
→ 요인점수 : 다수 변수들에 대한 원래 자료값을 각 요인에 대한 값으로 변환시킨 값
─ [사례] 자동차 구매시 중요하다고 생각하는 10개 속성 7점 척도 25명 대상 조사
+ 3개의 공통요인의 아이겐값이 1을 넘음. 공통요인 3개 선정이 적절
+ 첫 번째 요인이 45%가량 설명, 3개가 95% 정도 설명
+ 첫 번째 공통요인은 성능, 연비 등과 상관관계가 높음. 대체로 성능
+ 두 번째 공통요인은 디자인, 스타일 등과 상관관계 높음. 디자인
+ 세 번째 공통요인은 가격
판별분석
□ 판별분석
─ 개념 : 독립변수는 비율, 종속변수는 명목척도인 변수간의 관계분석
+ 관측대상 특성 나타내는 변수 이용, 특정 대상이 어디에 속하는지 예측(판별), 선형의 판별식 구하기
→ ex) 기업도산여부, 고객대출여부, 고객이탈여부
+ 다른 분석과의 차이
→ 회귀분석 : 독립, 종속변수 모두 비율척도인 변수간의 관계 분석
→ 분산분석 : 독립변수 명목, 종속변수 비율로 판별분석과 반대
→ 요인분석, 군집분석 : 종속변수 개념 없음
+ 집단 내 분산 대비 집단 간 분산의 차이 최대화 하는 독립변수들의 계수 찾기
+ 독립변수의 선형결합함수를 판별함수(판별식)이라 함
+ 기본가정
→ 독립변수들이 다변량 정규분포를 이룸
→ 종속변수에 의해 범주화 되는 집단들의 분산-공분산행렬이 동일
+ 관측치 개수 : 관측치 개수가 독립변수 수의 20배 이상, 종속변수의 각 범주 당 최소 20개 이상
+ 사용목적
→ 중요변수파악 : 어떤 변수가 어떤 방향으로 얼마나 판별점수에 영향을 미치는지
→ 분류 : 새로운 대상의 독립변수 값으로 판별식 계산하여 어느 범주에 속하는지 예측
─ 판별식 추정
+ 동시입력방식 : 고려하는 모든 독립변수들을 동시 입력하여 분석
+ 단계입력방식 : 판별력이 높은 순서로 독립변수 입력
─ 판별함수 점검
+ 판별력 점검 : 윌크스람다 이용(0~1) 검증
→ 윌크스 람다 : 각 독립변수의 (집단내분산)/(집단내분산 + 집단간분산)
집단 간 분산이 집단 내 분산에 비해 클수록 0에 가까워짐, 즉, 확실히 구분됨. 판별력 큼
+ 전반적 적합도 점검 : 다중회귀분석시 F검증으로 유의적 판명이 되어도 이 높아야 설명력 높다고 받아드리는 것과
유사
→ hit ratio(회귀분석의 상관계수 역할) : 정확히 분류된 비율 (0~100%)
─ [사례1] 70명 판매원의 사교성, 평점, 경력연수, 직무성적을 독립변수로 실적 상(집단2)하위(집단1) 구분
+ 집단통계량
→ 모든 변수 평균이 집단 2가 집단 1보다 높게 나타나고, 차이검증(ANOVA)결과 평점은 비유의적
→ 직무성적이 가장 작은 윌크스람다와 가장 큰 F값. 판별력이 가장 높을 수 있음. 즉, 두 집단 간 직무성적차이가
가장 큼
+ 분산-공분산 행렬의 동일성 검증
→ 가정에 위배되지 않음 p-value : 0.105 (p>0.05이면 가정을 충족)
+ 해당변수가 판별에 미친 영향 확인
→ 표준화 정준판별함수 계수 : 회귀분석의 회귀계수(베타)에 해당
직무성적이 가장 중요한 변수
→ 구조행렬 : 판별적재값(요인분석의 요인적재값에 해당). 변수와 판별함수간의 상관관계
±0.4이상인 경우 유의적. 직무성적과 사교성은 유의적이나 경력과 평점은 판별력이 별로 없음
+ 판별함수 도출
+ 분류함수 계수
→ 분류함수 : 새로운 대상의 분류집단을 결정하는데 사용하는 함수. 피셔의 선형판별함수
→ 새로운 분류대상을 독립변수값을 대입하여 분류집단 결정
→ 분류함수는 집단의 수만큼 도출
→ 사교성 40, 평점 3, 경력 7, 직무성적 80일 경우
집단 1 = 0.233*40+2.581*3+0.848*7+0.628*80-33.277=39.562
집단 2 = 0.288*40+1.803*3+1.084*7+0.751*80-44.462=40.135
집단 2의 값이 더 크므로 집단 2로 분류
+ 분류결과 : 70명 중 52명이 정확하게 예측. hit ratio는 74.3%
─ [사례2] 24명 대상 A카드 멤버여부, 호텔식당 이용률, 스포츠시설 이용률, 연령, 월평균 소득 조사
+ 독립변수, 종속변수(집단변수, 카드 멤버여부) 지정. 단계입력방법 사용
+ 판별력 확인 위해 윌크스 람다 계산. 0에 가까울수록 두 집단이 확실히 구분. 판별력 큼
→ 선택된 변수가 판별에 얼마나 영향을 미쳤는지 알기 위해 표준화된 정준 판별함수의 계수 확인
→ 회귀분석의 베타에 해당하는 것. 스포츠시설 0.861로 호텔식당 이용률 0.722보다 큼. 스포츠 시설이용률이
판별력이 더 큼
+ 판별함수 구하기 위해 비표준화 항목을 선택
→ 판별함수 : -4.344 + 0.498 × (호텔식당 이용률) + 0.630 × (스포츠시설 이용률)
→ 판별점수가 두 집단의 분류점보다 크면 집단 2, 작으면 집단 1로 판별
→ 분류점은 중간값. -1.118과 1.118의 중간값 0
+ 판별함수 구해진 후 새로운 대상이 어느 집단에 소속해야 하는지 알기 위해 피셔의 선형판별함수 이용
→ id 1(멤버X, 호텔5, 스포츠1)인 조사대상자와 22(멤버O, 호텔3, 스포츠3)인 조사대상자 소속 판별
→ id 1 = -4.344 + 0.498 × 5 + 0.630 × 1 = -1.224
→ id 22 = -4.344 + 0.498 × 3 + 0.630 × 3 = -0.964
→ 둘 다 0보다 작아 멤버십 보유 안한 것으로 분류됨. id 1은 맞게 분류, 22는 잘못 분류
→ 피셔의 선형판별함수 : 새로운 조사대상을 집단으로 판별하는데 사용. 판별값이 큰 쪽으로 집단을 판별
→ 새로운 조사대상자 식당이용률 1, 스포츠 3일 경우 판별식
멤버십 없음 : -5.974 + 1.802 × 1 + 1.875 × 3 = 1.453
멤버십 있음 : -15.689 + 2.916 × 1 + 3.283 × 3 = -2.924
→ 멤버십 없음 판별값이 더 크기 때문에 멤버십 없음으로 판별
+ 판별결과. 적중률 91.7%로 상당히 정교하게 판별
유사성 기준 분석
□ 군집분석
─ 개인 또는 여러 개체를 유사한 속성을 지닌 대상끼리 그룹핑하는 탐색적 다변량분석기법, 거리측정, 유사성 측정.
세분시장 분류에 활용
─ 타 분석과의 차이점
+ 요인분석 : 변수 그룹화. 군집분석은 개체 그룹화
+ 판별분석 : 종속변수 있음. 군집분석은 종속변수 없음
─ 군집분석의 목적 : 유형탐색, 데이터 탐색, 데이터 제거, 가설검증, 가설도출, 모델적합도, 그룹에 기반한 예측
(환자예측 등)
─ 군집분석 응용 : 세분시장 구분, 기업유형 구분, 소비자 집단구분 등
+ 요인, 판별, 분산분석 등과 함께 사용가능
─ 기본원리 : 대상간의 거리로 유사성 판단. 유클리드 거리, 맨해튼 거리, 민코우스키 거리 등
─ 특징
+ 기술통계기법임. 정규성, 분산동일 등 가정 불필요
+ 다중공선성은 결과에 영향을 줌
─ 군집추출
─ 계층적 군집화 : 가까운 거리 대상들 하나씩 그룹핑, 순차적으로 다른 군집을 포함하는 큰 군집 형성
다른 그룹과 중복 허용 안하는 조건 하. 자료크기 크면 분석 어려움
+ 군집들간 거리계산방식에 따라 구분
+ 단일결합법 : 최단거리 기준. 가까운 거리부터 순차대로 군집
+ 완전결합법 : 최장거리 기준
+ 평균결합법 : 군집 내 모든 구성원과 다른 군집 내 모든 구성원의 평균거리 기준
+ 와드법 : 군집간 거리 계산시 구성원 분산합 기준. 각 조합의 분산합의 거리가 짧은 것부터 군집
─ 비계층적 군집분석 : 초기에 구하고자 하는 군집수 정하고 설정된 군집의 중심에 가장 가까운 개체를 하나씩 포함.
최적군집 찾는 법. 많은 자료를 빠르고 쉽게 하지만 초기값에 따라 결과 달라짐
+ K-means : k는 군집수
① 하나의 군집씨앗 선택하고 사전 명시된 한정거리 이내 대상들의 씨앗 중심 군집화
② 다른 군집씨앗 선택 후 군집화
③ 어떤 대상이 한 군집에 속했어도 새로운 씨앗에 가까우면 새 씨앗 군집으로 할당
□ 다차원척도법
─ 포지셔닝 분석을 통계적으로 수행하기 위한 방법론 중 대표적인 방법
+ 해당 상품군의 잠재적 소비자들이 중요하게 인식하는 판단기준 파악, 다차원 좌표평면 그림(지각도)
+ 유사성 지각도와 이상점(idea) 포함한 지각도
─ 다차원척도법(MDS)의 정의 : 유사성 또는 선호도 자료에 기초하여 공간상 벡터 혹은 점으로 소비자 및 제품의 위치
표시방법
+ 단일 알고리즘이 아닌 포지셔닝 목적 달성을 위한 시각화 전체를 의미
+ 개체 간의 거리/차이 또는 (비)유사성이 주어졌을 때 공간상에 표현하여 전반적인 데이터 구조 파악
─ 다차원척도법의 분류
컨조인트 분석
□ 컨조인트 분석
─ 제품(서비스, 점포 등) 대안들에 대한 소비자의 선호 정도로부터 소비자가 각 속성(고유한 특성)에 부여하는 상대적
중요도와 각 속성수준의 효용을 추정하는 분석방법
+ 응답자들에게 여러 속성수준의 결합으로 구성되는 제품 프로파일(대안)들을 제시하고 응답자들은 각 프로파일에
대한 선호 정도를 답함
+ ex, 여행사가 괌 신혼여행상품 개발시 여러 속성과 수준을 다음과 같이 한다면
→ 좌석(일등석, 일반석), 가격(150만원, 200만원)
상품 |
좌석등급 |
가격 |
상품1 |
일등석 |
150만원 |
상품2 |
일등석 |
200만원 |
상품3 |
일반석 |
150만원 |
상품4 |
일반석 |
200만원 |
→ 이 자료를 응답자들에게 제시, 각 상품의 선호 정도에 대한 응답을 컨조인트 분석
→ 각 속성의 상대적 중요도와 각 속성수준의 효용을 추정할 수 있음
→ 응답자마다 선호 정도가 다르게 나타남. 속성의 상대적 중요도가 다르기 때문
→ 상품2와 3을 비교시 상품2를 더 선호한다면 좌석등급 중요시, 3을 선호한다면 가격 중요시
─ 마케팅 활용
+ 소비자들이 제품의 각 속성에 부여하는 상대적 중요도와 각 속성수준의 효용 추정
+ 소비자들이 가장 높은 효용을 부여하는 속성수준들의 결합에 의해 신제품 개발
+ 속성수준이 다른 대안들의 시장 점유율 예측
+ 선호도가 유사한 소비자들을 군집화하여 시장세분화
→ 대안의 선호도를 등간척도 또는 서열척도로 측정
→ 등간척도는 메트릭 컨조인트 분석
→ 서열척도는 비메트릭 컨조인트 분석 (일반적)
─ 프로파일 구성
+ 속성은 소비자들이 제품선택에 큰 영향을 미칠 수 있는 주요 속성으로 구성
+ 속성의 수와 수준이 많아지면 응답자 평가를 많이 해야 해서 안좋음
+ 속성수준의 범위가 현실적이고 넓은 것이 선호도 파악이 쉬움
→ 자동차 1800만, 2000만, 2200만 보다 1500만, 3000만, 5000만
─ [사례] 카펫청소기
속성 |
속성설명 |
속성수준 |
디자인 |
청소기 디자인 |
A, B, C |
브랜드 |
브랜드명 |
K2R, Glory, bissell |
가격 |
청소기 가격 |
$11.99, $13.99, $15.99 |
성능보증 |
제품성능보증 여부 |
no, yes |
환불보증 |
환불보증 여부 |
no, yes |
+ 대안의 수 3 * 3 * 3 * 2 * 2 = 108개
→ 응답자가 모두 비교 현실적 불가능. 부분요인설계로 대안수 줄임
+ 16개 대안 생성 가정. 첫 번째 속성 1, 3번재 속성 3 등 코딩, 프로파일 카드 인쇄
프로파일번호 |
디자인 |
브랜드 |
가격 |
성능보증 |
환불보증 |
1 |
3 |
3 |
2 |
1 |
1 |
2 |
3 |
2 |
1 |
2 |
2 |
3 |
2 |
1 |
1 |
2 |
1 |
~ |
~ |
||||
16 |
2 |
1 |
2 |
1 |
2 |
+ 자료수집 : 10명에게 수집. pref1은 가장 선호, pref16은 가장 비선호
id |
pref1 |
pref2 |
~ |
pref15 |
pref16 |
1 |
4 |
6 |
11 |
17 |
|
2 |
6 |
16 |
1 |
4 |
|
3 |
11 |
9 |
2 |
13 |
|
~ |
~ |
~ |
~ |
||
10 |
8 |
13 |
~ |
11 |
9 |
+ 분석결과는 응답자 개인별 분석결과와 전체 응답자의 평균을 보여줌
→ 전체 응답자의 평균(전체 통계량)이 더 중요함
+ 모형설명표. 각 속성의 수준과 성격(이산형/선형)을 나타냄 (마케터가 결정)
|
수준수 |
순위 또는 점수에 관련 |
디자인 |
3 |
이산형 |
브랜드 |
3 |
이산형 |
가격 |
3 |
선형 (미만) |
성능보증 |
2 |
선형 (초과) |
환불보증 |
2 |
선형 (초과) |
→ 이산형은 값이 명목이라는 뜻이고, 선형(미만)은 속성값이 커지면 효용이 작아짐, 선형(초과)는 속성값이 커지면
효용이 커짐
+ 응답자 분석
→ 개체 1은 첫 번째 응답자라는 뜻, 유틸리티는 각 속성 수준이 갖는 효용값. 클수록 선호
→ 속성이 이산형이면 유틸리티 합계는 0, 선형(미만)이면 ‘-’, 선형(초과)면 ‘+’가 기대됨
→ 속성의 중요도 값은 (해당속성의 효용범위/모든 속성의 효용범위의 합계)*100%. 응답자가 해당 속성을 얼마나
중요시 하는지
→ 각 속성의 효용범위는 가장 큰 값 - 가장 작은 값. 브랜드의 범위는 2.417-(-4.083)=6.500
→ 환불보증은 선형(초과)로 설정했으나 반대의 결과가 나타났음
+ 응답 해석
→ 브랜드를 가장 중요시 : 브랜드(53.1) > 환불보증(16.3) = 가격(16.3) > 디자인 > 성능보증
→ 디자인은 C, 브랜드는 Glory, 가격은 $11.99, 성능보증은 yes, 환불보증은 no
'상상의 창 블로그 > 배움의 창' 카테고리의 다른 글
[재무관리분야] 세법 (요약중) (0) | 2020.08.20 |
---|---|
[마케팅분야 ] 소비자행동론 (0) | 2020.06.07 |
[마케팅분야] 마케팅관리론 (0) | 2020.06.01 |
양성과정_중소기업 관련법령 (2/2) (0) | 2020.05.24 |
양성과정_중소기업관련법령 (1/2) (0) | 2020.05.23 |