본문 바로가기

상상의 창 블로그/배움의 창

[마케팅분야] 시장조사론

728x90

Part 1. 마케팅 조사

 

 

Ⅰ. 문제의 정의

 

□ 조사계획서 작성

조사의 필요성, 조사절차, 조사비용 등을 담은 마케팅 조사를 위한 계획서로 마케팅관리자가 경영자에게 마케팅

    조사를 실시하도록 건의하기 위한 자료

조사계획서의 내용

    + 조사의 제목 : 조사 계획명

    + 조사의 배경 : 마케팅 환경의 변화, 마케팅 전략의 변화 등으로 마케팅 의사결정이 필요한 문제가 발생했음을 설명

    + 조사의 목적 : 의사결정문제, 조사목적, 조사문제 등을 기술하여 경영자에게 조사가 필요하다는 사실을 명확히 전달

    + 조사의 범위, 조사유형과 수집할 자료 : 조사에 포함될 내용을 적시하고 실험, 서베이, 관찰 등 어떠한 조사를 할 것

       인지를 기술하고 수집할 자료를 제시

    + 자료수집방법 : 누구를 대상으로 어떻게 자료를 수집할 것인지. 모집단, 표본추출방법, 표본의 크기 등 상세히 기술

    + 조사의 가치 : 조사의 결과 얻을 정보의 가치와 의사결정문제의 해결에 어떻게 활용될 것인가를 제시

    + 조사의 일정과 조사팀의 구성 : 조사의 일정을 제시하고 조사 참여자의 프로파일을 제시

    + 조사비용 : 소요되는 비용을 제시

 

 

□ 개념적 정의와 조작적 정의

개념적 정의 : 하나의 개념을 정의하기 위해 다른 개념을 이용하여 묘사하여 내용을 한정짓는 것 사전적 정의

조작적 정의 : 개념적 정의에 의해 구체화된 추상적 개념을 실제 경험적 세계에서 측정 가능한 형태로 정의하는 것

개념적 정의와 조작적 정의의 관계

    + 개념적 정의를 통해 용어의 의미가 보다 더 분명해지고 조작적 정의를 통해 경험적 세계에서 보다 구체화 되어

       직접 측정 가능하게 됨

    + ex) 브랜드 충성도

        → 개념적 정의 : 브랜드에 대해 애착을 느끼는 정도

        → 조작적 정의 : 10번 구매 중 특정 브랜드를 구매한 횟수

 

 

□ 가설설정

가설 : 잠정적 해답. 2개 이상의 변수 간의 관계를 설명하는 경험적으로 검증 가능한 진술

가설의 조건

   + 명료 : 모든 사람이 명확히 이해할 수 있도록 설정

   + 가치중립적 : 연구자의 편견이나 가치를 배제

   + 검증가능 : 변수간의 관계를 경험적으로 측정 가능

통계적 검증단계에서의 가설의 분류

   + 귀무가설(영가설)과 연구가설(대립가설)

 

 

 

 

Ⅱ. 조사설계 

 

□ 조사설계 개요

조사에 대한 전반적인 계획 수립

 

 

□ 조사방법

 

 

□ 탐색조사

문제에 대한 통찰과 아이디어를 얻기 위한 조사

정확한 절차 보다는 적절한 유연성 발휘

기술조사나 인과조사를 위한 예비조사적 성격

2차 자료 : 기존 자료 중 적절한 것 선택. 출판, 논문, 내부자료 등

1차 자료 : 적합한 2차자료가 없을 경우 직접 수집. 심층면접, 표적집단면접, 투사법 등

문헌조사, 전문가 의견조사, 심층면접법, 그리고 표적집단면접법

가설의 개발 : 탐색조사를 통해 조사문제가 정의된 후 조사문제는 가설로 전환

 

 

□ 기술조사(Descriptive research)

연구대상의 특성 또는 현상을 기술. 명확하고 구체적인 조사문제 해결을 위한 방법

자료수집 방법으로는 서베이법과 관찰법

횡단조사와 종단조사

    + 횡단조사 : 특정 시점에 1회 조사 (대부분 횡단조사)

    + 종단조사 : 조사대상을 반복적으로 조사 (다시점 조사)

종단조사 : 조사대상을 고정해야 함

    + 여러 대상을 여러 번 하면 횡단조사를 여러 번 하는 것임

    + 보통 패널이라는 고정된 표본 이용. 소비자, 가구, 점포, 유통업자 등으로 구성. 일정기간 유지

    + 패널이 없어도 정기조사를 할 경우 대표성만 확보된다면 시점 간 조사들의 비교가 가능

 

 

 

□ 인과조사

2개 이상의 변수들 간의 인과관계를 밝히는 것을 목적으로 시행

변수간 인과관계에 대한 가설 설정, 자료수집과 분석을 통해 가설 검증

인과관계 추론 방법

    + 결과에 영향을 미치는 변수를 찾았다 하더라도 결정적 관계가 아닐 수 있음

    + 확률적 관계이므로 추론만 할 수 있음

    + 다음 3가지 조건이 충족되면 인과관계가 있다고 추론 가능함

동반발생

    + X의 변화와 Y의 변화가 함께 발생하거나 가설이 예측하는 방향으로 발생

    + ‘광고비(X)를 늘리면 매출(Y)이 늘어난다.’가 성립하려면 광고비가 높은 제품이 광고비가 낮은 제품보다 매출이

       높아야 함. 이럴 경우에도 인과관계가 확정은 아님

    + 원인 결과가 반대일 확률도 있음. 광고비가 낮아도 매출이 높은 경우 인과관계가 없다고 할 수도 없음. 증거를 발견

       못한 것일 수 있음

시간적 선행성 : X가 변화하고 나서 Y가 일어나야 함

대체 설명 부재 : 대체가능한 설명이 없어야 함

    + 앞의 두가지가 성립해도 다른 원인이 있다면 관계가 모호해짐

 

 

 

 

Ⅲ. 자료수집방법

 

자료의 종류

 

□ 2차자료의 종류

내부 2차 자료 : 내부 회계자료, 마케팅 관련 내부자료 등

외부 2차 자료 : 정부기관, 단체, 조사회사 등에서 제공하는 자료. 신디케이트 자료 포함

신디케이트 자료 : 전문 조사회사에서 표준화하여 정기적으로 수집된 자료를 분석하고 회원 기업에  판매하는 자료

    + 일반적으로 패널 구성, 정기적으로 측정. 피플미터를 활용한 시청률 조사 등

    + 기관패널(패널 구성원이 소매상, 도매상 등으로 구성)

    + 1차 자료 수집보다 저렴, 바로 구매 가능. 대표성 문제 및 패널 신분노출로 사실적인 답변이 아닐 수 있음

 

 

□ 2차자료의 유용성

조사문제의 명확한 규명

문제에 대한 접근방법 사전 고찰

적절한 조사 설계 제시

조사문제에 대한 가설 제공

 

 

□ 2차자료의 적정성 판단 평가기준

조사문제와 관련성이 있는가

자료에 정확성과 타당성이 있는가

자료가 시기적절하게 활용할 수 있는가

 

 

□ 2차자료의 한계

적합성

    + 측정단위가 상이할 수 있음

    + 관련 변수의 정의와 범주 분류가 다름

    + 수집시점이 오래된 경우 적합성 문제 발생

정확성 : 자료 수집 전 단계에 걸쳐 진행 중 오류가 발생할 확률이 높은데 조사자가 확인 및 수정할 수 없음

 

 

□ 1차자료의 종류

정성조사 : 정량조사의 한계 때 사용 (응답자가 사회적 바람직한 방향으로 답변, 자신의 감정을 잘 모르는 경우 등)

탐색 자료

    + 직접법 : 목적을 공개하고 조사

    + 간접법 : 목적을 숨기고 조사

정량조사 : 자료를 계량화, 엄밀한 통계적 분석

정량조사를 행하기 전 정성조사를 통해 문제를 정의하고 직관을 얻어야 함

 

 

 

탐색조사

 

□ 심층면접법

조사자와 대상자가 격식을 차리지 않고 편안한 상태에서 1:1로 깊은 수준의 질문을 통해 조사

조사자가 상당한 수준의 숙련된 커뮤니케이션 능력과 탐사능력이 있어야 함

면접자에 따라 응답 결과가 바뀔 수 있음

 

 

□ 전문가 의견조사

해당분야 전문가를 대상으로 의견 수렴

심층면접과 표적집단면접의 두 형태로 활용 가능

정형화된 질문보다는 융통성있는 질문을 하는 비구조화된 자료수집 방법

 

 

□ 표적집단면접 (FGI)

6~12명 정도의 응답자 대상. 비구조화된 인터뷰

자연스러운 분위기여서 깊은 생각 표출이 쉽고 감정변화까지도 분석 가능. 일반화 하기는 어려움

사이버 표적집단면접도 점차 활용도가 커지고 있음

장점 : 여러 사람들 간의 상호 교류와 의견 교환으로 개인이 얻지 못하는 독창적 아이디어와 정보 획득 짧은 시간에

    정확한 자료 수집

단점 : 객관적이고 전문적인 표적집단의 선정이 선행되어야 함. FGI결과에 대해 사회자의 편견으로 해석상 오류발생

    우려

 

 

□ 투사법

응답자가 조사목적을 모르는 상태에서 응답자의 내면에 있는 신념이나 태도 등을 조사하는 방법

    + 사람은 의식적/무의식적으로 자신을 억제하려 노력하므로 실제 동기나 욕구를 모를 수 있음

    + 3자의 행위를 묘사하고 해석하게 하여 자신의 욕구 등을 무의식적으로 그 상황에 투사하게 함

투사법의 종류

    + 문장완성법 : 미완성인 문장을 제시하여 응답자에게 나머지 문장을 완성하도록 하는 방법

    + 단어연상법 : 한 단어를 제시하고 응답자가 그 단어로부터 연상되는 단어들을 순서대로 나열하도록 하는 방법

    + 그림묘사법 : 응답자에게 그림을 제시하고 그 그림이 무엇을 묘사한다고 생각하는지를 묻는 방법

    + 만화완성법 : 특정 상황에 대한 만화들을 제시하여 응답자가 그 만화들을 새로 연결되도록 순서를 정함으로써

       만화를 완성하도록 하는 방법

 

 

 

1차자료 수집방법

 

[서베이법]

 

□ 서베이법의 장단점

장점

    + 대규모 조사 가능

    + 대규모 표본으로 조사결과 일반화 가능

    + 직접 관찰할 수 없는 동기, 개념 측정 가능

    + 자료의 코딩, 분석이 용이

    + 계량적 방법으로 분석, 객관적 해석

단점

    + 설문지 개발이 어려움

    + 깊이 있고 복잡한 질문 어려움

    + 조사에 오랜 시간 소요

    + 응답률이 낮다

    + 부정확하고 성의 없는 응답 가능성

 

 

□ 시행 방식에 따른 종류

대인 인터뷰법 : 면접원이 응답자를 만나 인터뷰. 어려운질문 가능. 시청각 자료 활용 가능

    + 방문인터뷰 : 가정이나 사무실 방문. 사생활 보호 및 비용 문제로 잘 안함

    + 몰인터셉트 인터뷰 : 백화점이나 상가에서 쇼핑객 대상. 단시간 효율적 자료 수집. 대표성 낮음

    + 컴퓨터 이용 인터뷰 : 면접자가 컴퓨터 내 질문 읽고 답하는 형식. 면접원이 컴퓨터 조작 지원. 보조적 질문에

       답하며 진행. 키오스크 설치 시행

    + 장단점 : 높은 응답률, 질문의 모호함이나 어려움은 면접원이 해결. 대량의 자료수집, 순차적 질문 진행, 익명성

       보장 못함, 민감한 질문 어려움. 면접원 편향, 접촉범위가 좁음

전화 인터뷰법

    + 비교적 저렴한 비용으로 신속히 시행. 면접원 통제가 비교적 용이

    + 길고 복잡한 질문 불가능. 면접원 편향 가능성

우편 인터뷰

    + 패널 구성하여 패널에게 정기적으로 우편으로 서베이

    + 면접원 편향문제 없음. 응답자가 편리한 시간에 응답하므로 다양한 질문 가능, 접촉 범위가 넓고 익명성 보장.

       상대적으로 비용이 가장 저렴

    + 회수기간이 오래 걸려 시행속도가 느림. 응답자 통제 불가능. 다른사람의 응답 가능성. 응답률이 낮음. 선물 증정 등

       혜택 제공 필요. 낮은 응답률은 무응답 편향 초래

온라인 인터뷰

    + 이메일 인터뷰 : 간단한 질문이 아니면 잘 시행되지 않음

    + 인터넷 인터뷰 : 웹사이트에서 응답자가 바로 답하는 방식. 응답률이 낮음. 비용 저렴하고 신속히 처리, 즉시 분석

       가능

 

 

□ 무응답 오류

개념 : 응답자들의 거절이나 비접촉으로 인한 오류

오류를 줄이기 위한 방법

    + 정확한 DB구축

    + 조사가능한 시간에 유리한 조사방법 선정

    + 리스트 클리닝

    + 리스트 스크리닝

    + 설문조사 참여 동기부여 및 보상수단 활용

 

 

□ 설문지 종류

구분

공개적

비공개적

구조화

조사의 목적이 공개.

정해진 형식대로 답하는 설문.

가장 보편적으로 사용

조사의 목적을 밝히지 않음. 민감이슈

실험에서 실험목적을 밝히지 않거나

다른 목적이라고 위장하여 사용

비구조화

체크리스트 형식

응답에 대응하여 유연하게 질문 조정

탐사방식. 심층면접에 널리 사용

표적집단면접법에서 활용

목적도 밝히지 않고 정형화된 형식도 없는 설문지로 탐색조사의 투사법에 사용

 

 

□ 질문과 응답형태의 결정

개방형 질문 : 응답대안이 없이 자유롭게 답하는 비정형 형태

    + 다양하고 광범위한 응답. 창의적 응답 가능

    + 코딩하기 어렵고 혼란 초래 가능성

    + 서베이법에서는 부분적으로 사용. 탐색조사에서 주로 사용

고정형 질문 : 응답대안을 제시하고 하나를 선택하게 하는 형식

    + 응답이 쉽고 분석하기 용이

    + 응답자의 생각을 완전히 반영한다고 보기 어려움

    + 척도점을 이용한 질문도 널리 이용

 

 

□ 설문지 작성시 유의사항

가급적 쉽게 표현, 애매모호한 표현 금지

유도성 질문 금지

한번에 2가지 이상 질문 금지

응답할 수 없는 질문 금지

응답이 중복 되면 안됨

민감하게 반응할 가능성 있는 질문은 우회적으로

 

 

□ 질문순서의 결정

질문순서는 응답에 영향을 미침

단순하고 흥미를 느낄만한 질문으로 시작

일반적인 내용을 앞부분에, 점차 구체적이고 답하기 어려운 전문적 내용 질문

난처한 질문은 가급적 중반 이후 배치

설문지가 긴 경우 중요한 질문을 앞쪽에 배치

응답자에 대한 기초정보(인구통계적, 사회경제적 정보)는 사적 정보로 민감. 가장 뒤에 배치

 

 

 

[관찰법

 

□ 관찰법의 개념

관찰법의 개념

    + 행동 패턴을 기록하고 분석. 조사자가 전혀 개입하지 않음. 대부분 관찰되는 사실을 모르게 함

    + 장점 : 비교적 편향이 없는 자료 획득, 의사표현이 불가능한 것도 조사, 행동 측정

    + 단점 : 신념 태도, 선호도 등 확인 불가능, 결과를 일반화하기 어려움, 관찰자마다 해석이 다를 수 있음, 관찰과

       기록의 시차 발생하여 정확도가 떨어짐

 

 

□ 관찰법의 종류

공개적 관찰 : 관찰되는 것을 드러냄. 특수한 경우

    VS. 비공개적 관찰 : 일반적. 대상자의 인구통계학적 정보 등 수집하는데 한계, 사생활 침해 우려

구조화된 관찰 : 사전에 관찰할 내용을 명확히 결정. 오류 가능성 줄이고 신뢰성 높힘

    VS. 비구조화된 관찰 : 조사와 관련된 모든 행동을 관찰자의 판단에 따라 관측(탐색적 조사)

자연상태 관찰 : 실제상황과 동일. 외적 타당성 높으나 특정 관찰을 위해 많은 시간과 노력 필요

    VS. 인위적 환경 관찰 : 특정 환경을 조성하고 관찰(실험). 외적 타당성 문제 발생

인적관찰 : 사람이 직접 관찰. 실사, 재고조사 등. 예상치 못한 행동 발견. 객관적이지 못함

    VS. 기계적 관찰 : 기계 시스템 이용. 객관적이고 정확한 관찰

직접관찰 : 행동이 일어나는 시점에 관찰자가 직접 관찰 (계산대에서 판매수량 관찰)

    VS. 간접관찰 : 행동의 결과 발생한 흔적을 관찰 (쓰레기통 관찰)

 

 

 

[실험법]

 

□ 주요 용어

독립변수 : x, 실험자가 값을 변화시켜 그 영향을 측정하고 비교하는 변수

종속변수 : y, 독립변수에 의해 영향을 받아 값이 변하는 변수

매개변수 : AB에 영향을 주고 BC에 영향. A(독립변수) B(매개변수) C(종속변수)

조절변수 : 독립변수와 종속변수 사이에 영향이 크면서도 불명확한 영향을 미치는 변수. , 조절변수가 존재할 때만

    독립변수와 종속변수 사이의 이론적 관계가 성립

    + AC에 영향을 줄 때 B에 따라 C의 결과가 달라지는 변수.

    + EX, 학습시간(독립변수) 성적(종속변수), 공부방법(조절변수)

외생변수 : 독립변수 외 종속변수에 영향을 미치는 모든 변수

통제 : 실험과정에서 외생변수를 고정시키는 것

랜덤화 : 실험대상이 되는 집단에 피 실험자들이 동질된 분포가 되게 만드는 과정

 

 

□ 실험의 종류

실험실 실험 : 인위적 환경, 외생변수 통제 용이

    + 시간과 경비가 적게 소요. 실험 사실이 경쟁자에게 노출 최소화

    + 실제 환경에서 동일하게 재현할 수 있다는 보장 없음

현장실험 : 자연스러운 상태에서 실험

    + 현실성이 높으나 외생변수 통제가 어려움.

 

 

□ 시험마케팅

마케팅부서에서 행해지는 실험은 시험마케팅으로 신제품 출시 전 디자인 선택, 가격, 광고선택 등이 매출에 끼치는

    영향 확인 (test bed)

표준시험마케팅 : 실제 시장에서 실험

    + 외적 타당성 높음, 마케팅 믹스의 효과 구체적으로 실험 가능

    + 많은 시간과 비용 소요, 경쟁사들에게 활동 노출

통제시험마케팅 : 몇 개의 선택된 점포에서 실시

    + 비용, 시간 절약, 노출 위험성 낮아짐. 제한된 범위실시로 신뢰성 낮음

모의시험마케팅 : 모의쇼핑점포 만들어 피실험자 대상

    + 비용과 시간 절약, 경쟁사노출 극소화, 높은 통제가능성으로 정확한 예측 가능

    + 실험실 실험으로 외적 타당성 낮음

 

 

□ 실험의 타당성

내적 타당성 : 독립변수가 종속변수의 변화를 잘 설명하는지

    + 실험실 실험이 높음(외생변수 통제)

외적 타당성 : 다른 시점이나 장소에서도 동일한 결과를 얻는 정도

    + 실험환경이 실제 상황과 비슷해야 함. 그러나 실제상황은 외생변수로 내적 타당성 낮아짐

CF) 신뢰성 : 같은 장소건, 다른 장소건 다시 측정해도 동일한 결과를 얻을 수 있는지

Trade-off : 실험 목적에 따라 하나를 희생해야 함. 이론연구는 내적 타당성을, 실무 적용은 외적 타당성 높여야 함

 

 

□ 내적 타당성 저해 요인 (외생변수)

혼란 : 외생변수가 종속변수에 영향을 미치는 것. 혼란을 끼친 변수를 혼란변수

역사적 오염 : 실험 중 특이한 사건의 발생

    + O1 X O2일 경우 O1 O2 영향. 오직 X만 영향이라는 보장 못함

    + 경제 악화, 다른 광고 접촉 등 외부효과 있을 수 있음. 실험실에서도 반복실험 등 영향 가능성

    + 제거방법 : (A/B 테스트) 두집단을 O1 실행, 한집단만 X 진행(실험집단, 나머지는 통제집단).

성숙효과 : 시간의 흐름에 따라 피실험자의 특성 변화하여 종속변수에 영향

    + 피실험자의 피곤, 익숙해짐 등

    + 테스트가 익숙해지면서 점수가 실력이나 상황에 상관없이 변화함

시험효과 : 처음 측정값의 영향으로 두번째 측정이 다르게 나타나는 효과

    + 주시험효과 : O1O2에 영향. 자신의 태도 일관성 유지하려는 경향.

       O1 X O2 | O1 O2

    + 상호작용시험효과 : O1로 관심도가 올라가 X에 영향

       O1 X O2 | O1 X

측정의 편향 : 측정도구나 방법이 변화하여 측정값이 변화하는 현상

표본선택의 편향 : 표본을 잘못 선택. 통제집단과 실험집단이 동질적이지 않음

통계적 회귀 : 1차 시험에서 부정적인 사람이 X의 효과가 아닌 단순 통계적 회귀일 수 있음 고려

실험대상의 소멸 : 피실험자 중 일부 이탈

 

 

□ 외생변수 통제방법

제거 : 영향 미칠 수 있는 외생변수 모두 제거

균형화 : 외생변수 영향 동일하게 받을 수 있도록 실험집단, 통제집단 선정

상쇄화 : 하나의 실험 집단에 두 개 이상의 실험 변수가 가해질 때 사용하는 방법. 외생변수의 강도가 다른 상황에서

    다른 실험을 함으로써 외생변수 영향을 상쇄화

무작위화 : 가장 강력한 방법. 실험 집단과 통제집단을 모집단에서 무작위 추출, 외생변수 영향력 없앰

 

 

실험 디자인의 유형

(엄격함 정교함) 순수실험 디자인 유사실험 디자인 사전실험 디자인 (간편함)

 

 

□ 순수실험 디자인

실험처치 및 측정의 대상과 시기의 통제 가능. 주로 실험실 실험

내적 타당성위해 실험집단과 통제집단 필요. 서로 비교 가능해야 함, 무작위로 두 집단에 할당해야 함

 

사전사후 무작위 집단 비교 디자인

    - 무작위 할당(선택편향 없음), 역사적 오염, 성숙효과, 주시험 효과는 양 집단에 모두 작용하므로 제거됨

    - 상호작용 시험효과 영향이 있다면 EG에만 발생한 것이므로 제거할 수 없음

      실험집단 EG : [랜덤화 R] O1 X O2

      통제집단 CG : [랜덤화 R] O3 O4

    - 실험의 효과는 (O2 - O1) - (O4 - O3)

무작위 집단비교 디자인 : 사전 특정 없음. 사전 동일하다고 가정(무작위 할당). 시행이 간편하여 널리 사용

    - 역사적 오염, 성숙효과, 시험효과 등 없음. 무작위지만 서로 차이가 없는지 확인 불가

      EG : [R] X O2

      CG : [R] O4

솔로몬 네 집단 순수실험 디자인 : 가장 엄격하고 정교하나 시행이 어렵고 비용문제로 널리 하진 않음

      EG1 : [R] O1 X O2

      CG1 : [R] O3 O4

      EG2 : [R] X O5

      CG2 : [R] O6

 

 

□ 사전실험 디자인

무작위 배치 않고 디자인에 따라 CG 없이 진행

엄격성과 정교성이 떨어져 내적 타당성 확보가 어려우나 간단히 시행할 수 있음

엄격성과 정확성이 덜 요구되는 경우 사용

 

일회적 사례연구 : 통제집단 없음. 단일 실험집단만 반응 측정

    - 인과관계는 볼 수 없으나 대략적인 영향 파악. 사전 측정방법이 없는 경우(신제품 출시)

      EG : X O

단일집단 사전사후 측정 디자인 : EG만 있으나 사전 측정

    - 실험처치효과 측정 가능하나 역사적 오염, 성숙효과, 소멸효과, 측정편향 등 발생

      EG : O1 X O2

집단비교 디자인 : 무작위 할당하지 않음

    - 측정을 한번만 하므로 역사적 오염, 성숙효과, 소멸효과, 시험효과, 측정편향은 없음

    - 무작위 할당을 하지 않으므로 표본선택의 편향으로 내적 타당성 저해

      EG : X O1

      CG : O2

 

 

□ 유사실험 디자인

연구자가 대상과 시기는 통제할 수 있으나 랜덤배치가 어렵거나 순서통제가 어려울 경우 사용. 내적 타당성을 상당한

    수준까지는 확보 가능

    + ex) 고등학교 3학년 50명 대상 실험의 경우 10개 반에서 5명씩 랜덤추출

       → 반 편성시 랜덤하게 배치했으므로 어느정도 랜덤화 가정

 

비동질 집단비교 디자인

    - 순수실험디자인의 사전사후 무작위 집단비교 디자인과 유사

      EG : O1 X O2

      CG : O3 O4

독립표본 사전사후 디자인 : 표본을 분리하지 않고 서로 독립적인 2개 표본 대상

    - 한 표본은 측정만 하고 다른 표본에만 실험 처치 후 측정, 비교

    - 현장실험의 경우 실험처치 전 후 비교가 어려우므로 독립표본 사전사후 디자인 자주 활용

      표본 1: O1

      표본 2 : X O2

 

 

 

측정과 척도

 

□ 변수와 구성개념

변수 : 구체적 변수와 구성개념을 모두 지칭하는 것. 척도를 이용하여 관심대상이 되는 개체의 속성을 측정한 값으로

    나타낼 수 있는 특성

    + 협의의 변수 : 구체적 성격이 강한 변수만 지칭

    + 구성개념 : 추상적인 성격이 강한 변수

    + 계량변수(매출액, 이윤 등), 행동변수(반복구매, 선택), 추상적 변수(충성도, 이미지 등)

구성개념 : 추상적 성격이 강한 변수로 덜 추상적인 하위개념들로 구성

    + 브랜드 충성도(구성개념)은 구매빈도, 선호도 등의 하위개념을 묶어서 형성

변수는 다양한 측정도구로 측정하나 구성개념은 추상적이므로 객관적 측정도구가 없음

 

 

□ 구성개념을 정의하는 방법

개념적 정의 : 하위개념을 이용하여 구성개념을 정의. 측정이 불가능함

조작적 정의 : 추상적인 구성개념을 구체적이고 측정 가능하도록 조작하는 것

    + EX) (구성개념) 지적능력 (조작적 정의) IQ. 인간의 지적능력은 수리해결능력과 언어 구사능력 이라고 조작적 정의

       후 두가지 능력을 측정하여 합한 것

    + EX) 브랜드 충성도는 브랜드에 대한 애착을 느끼는 정도라고 개념적 정의를 하면 측정 불가

        → 10번의 구매 중 특정 브랜드 구매 횟수로 조작적 정의를 하면 측정 가능

 

 

□ 측정

미리 결정된 규칙에 따라 구성개념이나 변수를 수치나 기호로 할당하는 과정

    + 수치나 기호로 할당하는 규칙 정하는 것이 중요. 수치나 기호는 1:1대응관계여야 함

 

 

□ 척도의 종류와 특징

척도 : 측정 과정에서 수치나 기회를 척도라는 연속적 체계에 위치. 즉 측정하는 도구

척도

특징

계산가능

통계량

가능한 분석법

명목척도

대상을 구분할 목적

Categoryclass로 구분

하나의 부류에만 속해야 함

계산 불가

성별, 학번

최빈값, 빈도수,

퍼센트

이항검정, 카이스퀘어검정, 사인테스트

서열척도

상대적 위치. 범주와 서열정보

크기의 차이는 의미 없음

순서만 중요

학급석차,

선호순서

명목척도 통계량

+ 백분위수,

중앙값

스피어만 서열 상관계수,

순위를 이용한 분산분석

등간척도

간격이 동일. 거리개념이 있음.

범주 서열 정보 있음.

절대 0’이 존재하지 않음

덧셈, 뺄셈 가능

온도, 지능지수, 소비자만족지수

서열척도 통계량

+ 평균,

표준편차

서열척도 통계분석 + 피어슨 상관계수, 분산분석, 요인분석, 회귀분석 등

비율척도

절대 0’을 포함한 다른 척도의 성질을 다 가지고 있음

모든 통계분석 가능

무게, 길이,

나이, 가격,

시장점유율

모든 통계량

기하평균, 조화평균, 변동계수 등을 포함한 모든 통계분석

 

 

□ 척도개발시 고려사항

척도법이란 : 측정과정에서 기호나 상징물에 할당되는 연속적 체계를 만드는 과정

척도점의 수 : 응답할 대안의 개수

    + 일반적으로 5점척도와 7점척도가 많이 사용. 자료수집방법도 척도점의 수 결정에 영향

    + 세밀한 통계분석을 요할 경우 척도점의 수를 많게 하는 것이 유리

    + 상관계수는 척도점의 수에 큰 영향. 척도점의 수가 적으면 상관계수가 낮아짐

짝수 척도점 VS. 홀수 척도점

    + 홀수 척도점은 중간값이 존재. 중립적 태도가 많을 경우 홀수 사용

    + 중간화 경향 발생 우려시 짝수 척도점 활용. , 중립의견에게는 다른 선택을 강요하게 됨

균형척도 VS. 불균형척도

    + 균형척도는 긍부정 척도가 동일하나 불균형 척도는 한쪽으로 치우쳐져 있음

    + 한쪽으로 의견이 치우친 것이 알려져 있는 경우 불균형 척도 사용하여 불균형 보정

응답의 강요성 여부 : 의견 없음, 잘 모르겠다 등 중간적 답변을 척도에서 제거. 강요된 평가척도

    + 중립된 의견이 많을 것으로 판단되면 중간값 제시 필요

척도 표현 형태 : 별 척도, 게이지 척도(피자, 온도계 등), 알파벳, 숫자 등

척도 설명 : 척도점 설명을 전부 다 할 것인가 끝에만 할 것인가, 설명을 넣을 것인가 등

    + 가급적 모든 척도점에 설명을 달아 혼란을 막는 것이 좋음. 조사목적에 따라 적절히 판단

 

 

척도법의 분류

비교척도법 : 비메트릭 척도법. 여러 대상을 직접 비교하여 측정

메트릭 척도법 : 다른 대상과 관계없이 측정. 비율척도나 등간척도의 형태

 

 

□ 비교 척도법

같은 기준으로 측정되어 비교가 가능, 응답자가 쉽게 이해할 수 있고 적용이 간편

서열척도 이므로 통계량과 통계분석이 제한적. 측정 시 적용된 대상을 넘어 일반화 어려움

 

쌍대비교척도법 : 두 대상 중 하나 선택. 측정값은 서열척도

    - A, B, C를 측정시 A B, A C, B C로 짝을 지어 선호하는 것 측정

    - 다차원척도법(MDS) 등 다양한 분석기법을 위해 사용

    - 대안수가 적은 경우 응답이 쉽고 결과가 명확하나 많아지면 경우의 수가 너무 커짐

    - 소비자가 현실에서는 2개씩 비교하지 않으므로 비현실적

    - 상대적 선호도는 알지만 절대적 선호도 파악은 어려움. 비선호 제품군일 수 있음

순서서열척도법 : 대상 전체를 동시에 고려하여 기준에 따라 순위를 정하는 방법

    - A, B, C의 선호도 조사시 순서로 나열이나 순위 부여

    - 서열척도의 형태이고 상대적 의미만 있으므로 1순위라고 선호된다고 볼 수 없음

    - 쌍대비교척도법보다는 현실적이고 이해가 쉽고 노력이 적게 소요

    - 대안의 수가 많아지면 쌍대비교척도법보다 더 어려워질 수도 있음

고정총합척도법 : 총합을 정해주고 기준에 따라 대상별로 점수 할당

    - 서열척도의 성격이 강하나 중요도가 없으면 0을 할당할 수 있음

    - 두배 중요하면 두배수치 할당 가능하므로 비율척도로 볼 수도 있음

    - 대상이 너무 적을 경우 결과가 부정확할 수 있고 과도하게 많으면 응답이 어려워짐

    - 예시에서 응답자가 중요하게 여기는 속성(변수)이 빠져 있을 수 있음

    - 속성에 따라 결과가 달라질 수도 있음

 

 

□ 메트릭 척도법

연속형 평가척도법

    - 2개의 대비가 되는 개념 사이에 응답자가 느끼는 위치 표시

    - 만들기 쉬우나 표시한 위치 파악이 어렵고 대충 하는 경우가 있어 신뢰도 낮음. 잘 사용 안함

리커트 척도법

    - 주어진 문장을 읽고 동의하는 정도. 5내지 7점의 등간척도

    - 마케팅 조사에서 주로 사용. 관리도 쉽고 응답자 이해도 쉬운편

의미차별화 척도법

    - 상반되는 형용사적 표현을 양쪽 끝에 표시, 응답자가 적절한 위치에 체크

    - 일반적으로 7점척도. 서열척도 성격도 있으나 간격이 같은것으로 가정하고 등간척도도 간주

    - 이해와 답하기 쉬우나 형용사적 표현 만들기가 어려움

    - ex) 밝다 _ O _ _ _ _ _ 어둡다 동적이다 _ _ _ O _ _ _ 정적이다

스타펠 척도법

    - 한가지 개념에 대하여 0을 제외하고 -5에서 +5까지 10점 척도로 측정. 응답자 혼란 우려

    - ex) -5 -4 -3 -2 -1 직원이 친절하다 +1 +2 +3 +4 +5

 

 

 

타당성과 신뢰성

 

 

□ 척도의 평가

구성개념을 척도로 측정하기 어려움. 반드시 제대로 했는지 타당성과 신뢰성 평가 필요

타당성 : 측정값이 구성개념을 얼마나 잘 나타내는지 여부 ( )

신뢰성 : 반복측정해도 동일한 결과가 나오는지

타당성과 신뢰성의 관계

    + 타당성이 높으면 항상 신뢰성이 높게 나타남

    + 신뢰성이 낮으면 항상 타당성이 낮게 나타남

    + 신뢰성이 높으면 타당성이 높을 수도 낮을 수도 있음

    + 타당성이 낮으면 신뢰성이 높을 수도 낮을 수도 있음

 

 

□ 오차

측정값 = 실제값 + 오차, 오차 = 체계적 오차 + 비체계적 오차

체계적 오차 : 특정 패턴이 있는 오차. 타당성 여부

비체계적 오차 : 특정 패턴이 없는 오차. 신뢰성 여부. 완전히 제거는 불가능

 

 

 

[타당성

 

□ 타당성 평가

측정대상의 실제값을 알지 못하므로 타당성 확인은 어려움

기준 타당성, 내용 타당성, 구성 타당성을 만족시키면 타당성이 있는 것으로 추정

 

 

□ 기준 타당성(Criterion Validity)

구성개념을 측정B가 잘 측정한다고 알려짐. 그 구성개념을 측정A로 측정

    + A가 기준 되는 B와의 상관관계가 높으면 구성개념을 잘 나타낸다고 추정

EX) 대학에서 입학생 선발시 우수학생이 될 입학생을 선정하려고 함. 우수학생이라는 구성개념 측정위해 졸업

    학점으로 평가. 졸업학점이 높은 학생과 그 학생들의 입학 때 여러 지표간의 상관관계를 연구하여 상관관계가 높은

    변수를 신입생 선발 기준으로 선택. 그 변수가 논술이어서 신입생을 논술점수로 선발. 졸업생 학점 측정 B, 신입생

    논술성적 측정 A. 기준타당성이 높은 측정

    + 측정 A와 측정 B간의 상관계수를 타당성계수라고 함

측정 B가 발생하는 시점에 따라 예측타당성과 동시타당성으로 구분

    + 예측타당성 : 측정 A는 현재, 측정 B는 미래시점. , 측정 A를 이용해 측정 B를 예측, 위의 예시

    + 동시타당성 : 측정 A와 측정 B가 같은 시점에 측정. 브랜드 구매행위 예측에 타당성이 높은 방법과 새로운 방법을

       동시에 적용 후 상관관계 비교시 상관관계가 높다면 동시타당성이 높은 측정법이라 할 수 있음

 

 

□ 내용 타당성(Contents Validity)

구성개념의 내용을 충분히 대표하는가

    + 타당성의 정도를 주관적으로 판단(내용 타당성의 한계)

    + 구성개념의 내용을 얼마나 반영하는지 알기 쉽지 않고 구성개념을 모두 포함하는 측정은 없음

 

 

□ 구성 타당성(Construct Validity, 개념타당성)

구성개념들간의 이론적 관계와 측정값들 간의 상관관계가 일치하는 정도

EX) 구성개념 A와 이를 측정한 측정1, 구성개념 B와 이를 측정한 측정2에서

    + 구성개념A와 구성개념 B와의 이론적 관계와 측정1과 측정2의 상관관계가 연관 있어야 함

 

집중(수렴) 타당성 : 하나의 구성개념을 측정하기 위해 여러 척도를 사용한다면 측정값 사이에 상관관계가 높아야 함

    - 브랜드 충성도 측정위해 구매횟수와 구매의사를 측정 시 두 값의 상관관계가 높아야 함

판별 타당성 : 서로 상이한 구성개념의 측정시 상관관계가 낮아야 함

    - 다양한 브랜드를 추구하는 지표와 브랜드 충성도 지표간 상관관계가 낮을 수록 타당성 높음

법칙 타당성 : 서로 다르지만 관련이 있는 구성개념을 측정하는 척도간 이론적으로 예측되는 방향으로 상관관계가

    있으면 타당성이 있다.

    - EX) 구성개념 A와 구성개념 B간에 이론적 관계가 있고 구성개념B를 측정한 측정2는 구성개념B를 잘 설명한다고

      알려져 있을 경우 측정1과 측정2의 관계를 분석하여 구성개념

    - AB의 이론적 관계를 확인할 수 있다면 법칙 타당성이 높다고 할 수 있음

 

 

□ 타당성 향상 방안

구성개념이나 변수를 정확히 이해해야 함

가능한 여러 측정방법을 개발, 측정하여 수렴타당성을 검토해야 함

    + 상관관계를 낮추는 측정방법을 제외해 가며 수렴타당성 높여감

용어를 명확히 정의하여 응답자와 조사자가 서로 개념을 다르게 이해하지 않도록 함

다른연구에서 타당성을 검증받은 측정법 사용

 

 

 

[신뢰성

 

□ 신뢰성 측정방법

반복 측정방법

    + 일정시간 간격으로 두번 측정하여 두 측정값의 상관관계 평가 (2~4주 간격)

    + 시간소요, 고비용으로 많이 사용되지 않음

    + 시간변화에 따라 실제값이 변화할 수 있음

    + 시간간격이 짧을 경우 처음 응답이 두번재 응답에 영향 (주시험 효과)

    + 첫번째 응답내용이 기억나 동일하게 답변할 위험성

내적 일관성을 이용

    + 구성개념을 다항목으로 측정시 측정한 변수간의 상관관계가 높을수록 내적 일관성이 높음

    + 반분법 : 측정항목들을 양분하여 측정하고 양분된 그룹 간 상관관계를 계산. 측정항목 양분에 따라 상관관계가

       달라질 수 있음. 극복 위해 크론바흐의 알파가 개발됨

    + 크론바흐의 알파 : 2개의 항목간 상관관계를 모두 계산하여 상관계수의 평균을 구한 값을 변형

    + 크론바흐의 알파는 0에서 1 사이. 클수록 신뢰성이 높음 0.8~0.9면 바람직. 0.6 이상이면 받아들임.

       알파값이 작을 때는 상관관계가 낮은 항목을 찾아내어 제거함으로 신뢰성 높임

대안항목 신뢰성 : 동일대상에 대하여 동등한 두가지 척도를 가지고 일정 시간 간격을 두고 측정

 

 

□ 신뢰성 향상방법

구성개념을 정확히 이해하여 이론적으로 일관성 있는 항목들을 개발

신뢰성이 높다고 인정되어 널리 쓰이는 측정방법 사용. 사용 후 신뢰성 측정

크론바흐의 알파가 가장 널리 사용되는 신뢰성 측정방법

    + 일반적으로 측정항목의 수나 척도점의 수를 늘리면 알파값이 커짐(신뢰성 높아짐)

    + 다른 항목과 상관관계가 적은 항목을 제거함으로 신뢰성 높일 수 있음

    + , 응답이 어렵고 오래 걸릴 수 있음

 

 

 

 

Ⅳ. 표본설계

 

□ 표본오차 비표본오차

전수조사는 비표본오차때문에 기대보다 정확하지 않고 많은 비용과 시간 소요

    + 전수조사가 불가능한 조사도 있음. 불량률 조사 등

대부분 표본조사 실시. 모집단의 일부를 조사대상으로 추출하는 과정을 표본추출이라고 함

비표본오차 최소화 방법

    + 응답자 오류 : 표본이 모집단 잘 반영할 수 있도록 정확한 표본프레임, 조사명부 조사, 조사원 교육 철저, 설문내용

       명확, 측정도구가 조사목적에 적합여부 확인

    + 면접자 오류 : 응답자가 질문을 제대로 이해하도록 명확한 설문, 성실응답 유도

    + 조사자(연구자) 오류 : 코딩점검, 자료기입 점검

 

 

□ 표본추출과정

 

 

□ 표본추출방법

비확률표본추출방법 : 조사자의 의도가 표본추출과정에 개입되는 방법

    + 대표성 낮으나 비용과 시간이 적게 듬

    + 마케팅조사에서 엄격한 확률표본추출이 어려우므로 많이 사용

확률표본추출방법 : 모집단 연구대상이 표본으로 선정될 확률이 사전에 결정.

    + 조사자 의도가 추출과정에 개입되지 않고 무작위로 표본이 추출됨

    + 대표성이 높으나 시행이 어려움

확률표본추출방법

비확률표본추출방법

결론을 내릴 수 있다

탐색적 특성을 가지고 결론을 내리기 어렵다

표본오차가 상대적으로 크다

비표본오차가 상대적으로 크다

모집단이 비동질적일 때 더 효과적이다

모집단이 동질적일 때 사용 가능하다

시행이 복잡하고 어렵다

시행이 간단하고 편리하다

통계학적으로 정교하다

통계학적으로 한계가 있다

시간, 경비, 노력이 많이 든다

시간, 경비, 노력이 상대적으로 적게 든다

 

 

 

확률표본추출방법

 

□ 단순무작위 표본추출

가장 기초적인 표본추출방법

모집단 구성원들이 표본으로 선정될 확률 사전에 알려져 있고 동일하도록 추출

난수표나 난수발생 프로그램으로 추출

사전 정해진 허용오차범위 내에서 모집단 대표하기 때문에 대표성이 높음

모집단 구성요소에 일련번호 부여해야 하는 어려움(목록 확보 등)

 

 

□ 층화표본추출

모집단이 몇 개의 이질적 집단으로 나뉘어 있고 표본이 작은 경우 단순무작위는 문제 발생

등급 등 특징을 갖는 집단을 나누고 비중별로 고르게 추출

추출절차

    + 모집단을 특성을 잘 대표하는 몇 개의 층으로 나눔. 각 층은 내부적 동질, 외부적 이질

    + 전체적으로 필요한 표본 수를 정한 후 각 층의 크기에 비례하여 층당 추출 표본수 결정

    + 각 층에서 단순무작위추출

불비례적 층화표본추출(할당층화 표본추출) : 층의 중요도에 따라 표본수 할당

표본의 대표성 확보, 층간 차이점 분석 가능. 층의 구분이 적절하지 않을 경우 대표성 낮아짐

 

 

□ 군집표본추출

모집단이 여러 개 동질적 소규모 그룹으로 구성. 각 그룹은 모집단 대표할 수 있는 다양한 특성일 경우 사용

군집들이 서로 유사, 각각 모집단을 상당히 대표할 수 있음. 군집을 다 하지 않고 무작위로 적절히 선택

    + 군집 내 요소들은 서로 이질적으로 다양한 특성, 군집들은 서로 동질적이어야 함

지역표본추출 : 몇 개의 지역을 선정하여 조사

장점 : 조사에 소요되는 시간이나 경비를 줄일 수 있음

단점 : 선출된 집단 내 표본들이 서로 동질적이면 선택된 소집단이 모집단을 충분히 대표한다 할 수 없음

 

 

□ 체계적 표본추출

구성원에 어떤 순서가 있을 경우 일정한 간격을 두고 표본 추출 (선거일 출구조사)

    + 매번 k번째 연구대상을 표본으로 선택

    + 몰인터셉트 인터뷰

순서가 있거나 일련번호를 매길 수 있어야만 사용 가능

순서에 어떤 주기성이 있을 때 특정 특성을 가진 사람들만 추출될 수도 있음

 

 

 

비확률표본추출방법

 

□ 편의표본추출

조사자가 편리한 장소와 시간에 접촉하기 쉬운 대상들을 표본으로 추출

모집단 구성원이 상당히 동질적이라고 가정하고 시행

적은 비용과 시간으로 추출할 수 있으나 대표성이 낮음

 

 

□ 판단표본추출

조사자가 조사목적에 접합하다고 판단하는 구성원들을 표본으로 추출

도메인 전문가들이 대표성을 가진다고 판단하는 경우 사용

선정된 표본이 실제로 대표성을 가지는 경우는 효과적이나 주관적 판단일 수 있음

 

 

□ 할당표본추출

모집단을 특성에 따라 세분집단으로 구분하고 조사자의 주관적 판단에 따라 대표성이 가급적 확보될 수 있도록

    정해진 비율에 따라 각 세분집단에서 표본의 수를 할당

층화표본추출과 비슷하나 추출하는 표본 개수를 판단에 의해 무작위가 아니게 추출

비확률표본추출방법 중 정교한 방법으로 시간적 경제적면에서 장점이 있어 널리 사용됨

 

 

□ 눈덩이 표본추출

확률표본추출방법 또는 판단에 의해 적절한 표본을 선택, 조사 후 선택된 조사대상자들이 적절한 대상자를 추천하여

    표본을 추출해 나가는 방법

처음에 확률표본추출방법으로 선정했더라도 최종 표본은 비확률표본이 됨

조사를 거듭할 수록 표본이 눈덩이처럼 커진다고 해서 붙은 이름

조사자가 조사대상자를 찾기 어렵고 조사대상자들끼리 사회적 네트워크 형성시 활용

    + 사회적으로 민감하여 노출을 꺼리는 경우. 신천지 조사(?)

    + 몇 명을 선택하여 조사 후 아는 사람들을 추천하게 하여 표본 추출

인구통계학적 또는 사회통계적 특성이 유사할 수 있음

매우 희귀한 특성을 가진 사람들이나 사회적 노출을 꺼리는 사람들을 조사하기에 적합

전체 모집단과 동떨어진 특성을 가진 사람들이 선정될 가능성이 있어 대표성 문제 가능성 있음

 

 

□ 표본 크기의 결정

비확률표본추출방법은 예산과 시간에 따라 조사자가 판단

확률표본추출방법은 모집단의 분산, 신뢰수준, 허용오차에 따라 결정

    + 추정분산이 클수록 표본이 커야 함

    + 신뢰수준이 높을수록 표본이 커야 함 : 90%(Z=1.645), 95%(Z=1.96), 99%(Z=2.575)

    + 허용오차가 작을수록 표본이 커야 함

평균추정을 위한 표본크기 결정

비율추정을 위한 표본크기 결정

 

 


 

Part 2. 통계학

 

□ 가설검정 종류

검정대상

모집단의 수

분석

모집단의 평균

1

t검정

2

t검정

3개 이상

분산분석 (ANOVA)

모집단의 분산

1

검정

2

F검정

 

 

□ 분석별 특징

구분

차이

검증

교차

분석

분산

분석

상관분석

회귀분석

요인

분석

판별

분석

군집

분석

피어슨

스피어만

일반

더미

척도

독립

명목

명목

명목

비율

서열

비율

명목

비율

비율

비율

종속

비율

명목

비율

비율

서열

비율

명목

비율

명목

분포

t, Z

 

F

t

t

 

Z

 

통계량

 

 

 

, (상관계수)

(결정계수)

 

 

 

 

 

 

연관성 분석1 - 검증

 

□ 평균비교 차이검증

[사례] 기계조립 공장에서 조립순서 바꾸면 조립시간이 주는지 조사

    + t1.649, 유의확률(양쪽) 0.119이므로 0.05보다 커서 차이가 없다고 결론

    + F0.061, 유의확률 0.8070.05보다 상당이 커서 분산이 동일하다는 가설기각 못함 (등분산 가정됨)

표본의 값들이 짝을 이루고 있으며 짝을 이룬 값들을 비교하는 경우

    + 짝을 이룬 값들은 서로 독립적이지 않으며 모집단은 하나가 됨

    + 이 때도 t-test사용하나 검증통계량과 자유도가 다름

 

 

□ 교차분석

─ 카이제곱. 두 범주형(명목) 변수간 연관성(독립성) 분석

변수들간 범주 교차셀의 빈도(도수)교차표. 상호 독립성이나 관련성 정도 분석

    + 자유도 : (행의 수 - 1) × (열의 수 - 1)

[사례] 150명 임의조사, 소득과 정치성향 a=0.05. H0 정치성향과 소득 무관, H1 유관. 검정

구분

고소득

중간

저소득

친여

45

30

15

90

친야

5

20

35

60

50

50

50

150

    + 기대도수 = (행빈도의 합*열빈도의 합) / 총빈도의 합

구분

고소득

중간

저소득

친여

30

30

30

90

친야

20

20

20

60

50

50

50

150

     + 카이제곱(45-30)^2/30 + (5-20)^2/20 + ... + (35-20)^2/20 = 37.5 (0.05일 때 =5.99<37.5, 기각영역)

[사례] 조사자 3명이 종업원을 A, B, C, D, E로 업무평가. 조사자에 따라 평가가 차이가 있는가? (독립적이지 않은가?)

 

 

 

[분산분석]

 

□ 분산분석 

차이검증 평균비교 중 집단이 3개 이상이고 분산이 같을 경우 사용

    + 0.05 유의수준 개별검증을 여러번 하면 결합 유의수준은 0.05보다 커짐

독립변수(1개이상, 명목), 종속변수(단하나, 비율) 사용

 

독립변수

종속변수

분산분석

명목

등간/비율

교차분석

명목

명목

인자의 수준을 하나의 집단으로 가정, 집단과 집단이 얼마나 떨어져 있는가를 기준으로 집단들 간의 평균차가 있는지

    판단

    + 집단간(인자 수준 간) 분산이 차지하는 비율이 높아지면 집단들이 떨어져 있음

분산분석 가정

    + 관찰치는 서로 독립적 확률변수(무작위성)

    + 각 모집단은 정규분포

    + 각 실험요소의 분산은 동일(동분산성)

분산분석의 원리

 

A

B

C

 

3.0

7.0

5.0

4.0

6.0

8.0

5.0

6.0

7.0

4.0

3.0

7.0

5.0

4.0

6.0

9.0

6.0

7.0

8.0

5.0

4.7

5.0

5.0

5.2

5.1

5.8

5.8

6.0

6.0

6.4

평균

5.0

6.0

5.0

7.0

5.0

6.0

분산

2.5

2.5

2.5

2.5

0.035

0.06

    + AB에서 두 모집단간 평균차가 B가 더 큼. A에 비해 B가 두 평균값들의 분산(집단간)이 더 큼 (A=1, B=4)

    + AC에서 두 모집단간 평균차가 C가 더 큼. 집단내 분산이 더 작음

    + 표본 평균값 간의 차이가 클수록(집단간 분산이 클수록), 각 표본의 요소들간의 차이가 작을수록 (집단 내 분산이

       작을수록) 모집단 평균값 간에 차이가 있을 가능성이 높음

 

 

□ 일원배치 분산분석   

독립변수가 1

    + F값 클수록 0에 가까움. 채택

[사례] 광고시안 4개 평가 점수가 차이가 있는지

 

제곱합

자유도

평균제곱

F

유의확률

집단간

559.369

3

186.456

2.856

0.064

집단내

1240.631

19

65.296

 

 

합계

1800.000

22

 

 

 

    + F값이 2.856, 유의확률 0.06로 유의수준 0.05보다 크기 때문에 기각 안됨.

        → 시안에 따라 차이가 없음

 

 

□ 이원배치 분산분석

2개 이상 독립변수가 하나의 종속변수에 미치는 효과

처치효과

    + 주효과 분석 : 각 독립변수가 종속변수에게 미치는 영향. 고객만족에 미치는 영향. 지점/규모

        지점과 고객만족, 매장규모와 고객만족. 각자 보는 것

    + 상호작용효과 분석 : 한 독립변수가 다른 독립변수의 변화에 따라 종속변수에 미치는 영향

        지점의 매장규모와 고객만족 합쳐 분석

    + ex, 탄산음료. 당도(, ), 탄산(, )일 경우

        → (a), (b) 고단맛보다 저단맛일 때 호의적. 단맛이 태도에 미치는 영향은 탄산에 따라 달라지지 않음.

           상호작용효과 0.

        → (a) 주효과 있음(고탄산 선호, 저단맛 선호), (b) 탄산은 주효과 미미

        → (c) 고탄산은 고단맛 일 때, 저탄산은 저단맛 일 때 선호. 단맛 정도가 태도에 미치는 영향은 탄산 정도에 따라

            달라짐. 상호작용 효과 있음

        → (d) (c)와 같은 효과이나 강도가 더 강함

[사례] 신제품 광고 3가지 대안 개발, 소비자들이 좋아하는 광고 선택. 남녀간 태도 다르다 생각, 남녀 중 어느 집단이

    어떤 광고를 더 좋아하는지 알고 싶음. 남녀 각각 9명을 6cell에 할당, 광고 세가 지 중 하나 보여줌. 광고태도를

    0.0~5.0(간격 0.1) 척도 표시

    + 이원분산분석표

    + 광고대안들에 대한 태도는 성별에 따라 다른가?(a=0.05)

        → 상호작용항목의 유의성 F=7.755>F(0.5, 2, 12)=3.89. , 유의하므로 성별에 따라 광고대안의 태도가 다름

 

 

 

연관성 분석2 - 관계분석

 

□ 변수들간의 관계

공분산 도입. 얼마나 관계가 있는지 모름

상관분석, 누가 원인이고 누가 결과인지 모름

회귀분석(상관분석)

상관, 회귀, 분산분석 : 분산들간의 관계분석

 

 

□ 공분산

두 변수 사이의 관계 밀접한 정도. 등간, 비율척도

    + 공분산 값이 어느정도 커야 밀접한 선형인지 제시 못함

모집단의 공분산

표본공분산 : 표본이 주어질 때, 를 추정하기 위해 사용

    + Cov(X,Y) > 0 정의 선형관계

    + Cov(X,Y) < 0 부의 선형관계

    + Cov(X,Y) = 0 선형관계 없음

 

 

□ 상관분석

공분산 단점보완. 상관계수 사용(r)

    + 완전한 정의 선형관계(1), 선형관계 없음(0), 완전한 부의 선형관계(-1)

    + t분포 사용

|r|의 해석

    + ~0.2 : 거의 관계없음

    + 0.2~0.4 : 낮은 상관

    + 0.4~0.6 : 비교적 높은 상관

    + 0.6~0.8 : 높은 상관

    + 0.8~1.0 : 매우 높은 상관

상관분석과 회귀분석

    + 두 변수간 관계 규명시 둘 다 많이 사용

        → 상관분석 : 변수간 관계 설명

        → 회귀분석 : 한 변수로부터 다른 변수 변화 예측

변수의 척도

제 3의 변수 통제여부

분석

명목/서열 척도

 

교차분석

서열 척도

 

스피어만 서열상관분석

등간/비율 척도

통제안함

피어슨 상관분석(일반적)

통제함

편상관분석

스피어만 서열상관분석

 

 

 

[회귀분석]

 

□ 회귀분석

독립변수가 종속변수에 미치는 영향력 정도 파악. 종속변수 값 예측하는 선형모델 산출

구분

종류

내용

독립변수의 수

단순회귀분석

1

다중회귀분석

2개이상

독립변수의 척도

일반회귀분석

등간척도, 비율척도

더미변수를 이용한 회귀분석

명목척도, 서열척도

독립변수와

종속변수와의 관계

선형회귀분석

선형

비선형회귀분석

비선형

전제조건

    + 특정 독립변수값 갖는 종속변수는 정규분포 이루어야 하며, 분산이 동일해야 함

    + 종속변수 값들은 서로 독립적

    + 독립변수가 여러개 일 경우 독립변수간 다중공선성(공차한계 VIF) 없어야 함

결정계수 : 1에 가까울 수록 설명력이 높음(바람직)

    + 결정계수가 1에 가까울수록, 유의한F(p-value), t통계량(영향력) 클수록 영향력 큼

회귀분석의 기본 가정

    + 독립변수와 종속변수 간의 선형성 가정

    + 오차의 정규성 가정 : 오차(종속변수의 관측치와 추정치간의 차이). X의 어떤 값에 대해 여러개의  y가 존재하면

       여러개의 오차가 발생. 그 경우 오차들은 평균‘0’의 정규분포를 따름

    + 오차의 등분산 가정 : 오차들의 분산은 X의 모든 값에 걸쳐서 일정함

    + 오차의 독립성 가정 : 오차들은 서로 독립적. 의 변화에 따라 오차들이 패턴이 생기면 안됨

회귀식을 이용하여 Y값 추정시 회귀식을 발견한 X의 범위 내에서만 가능함

 

 

□ 단순회귀분석

회귀선 추정원리 : 적합도 이용

    + 적합도 : 관측값과 직선까지의 거리가 최소인 직선

    + 최소자승법 : 잔차의 제곱의 합.

[사례] 독립변수 광고비, 종속변수 매출액

    + R제곱값은 독립변수가 총 변동을 얼마나 줄여주는지. 독립변수가 종속변수를 얼마나 잘 설명하는지

        → R제곱값이 0.715, 수정된 R제곱이 0.686으로 모형이 적절함(잘 설명함)

    + F값은 회귀선이 설정되어 오차를 줄인 정도. 즉 얼마나 적절하게 설정되었는지.

        → F값이 25.062로 유의확률 0.001수준에서 유의함

    + 회귀식 : 36.731 + 1.804 × 광고비

 

 

□ 다중회귀분석 

독립변수가 k개인 회귀선

─ [참고] 더미변수 활용한 다중회귀분석

    + 명목척도로 측정한 변수를 회귀분석의 독립변수로 하여 분석할 때 사용

    + 더미변수의 수 = 범주의 수 - 1

    + [사례] 종속변수 매출액, 범주가 4개면 더미변수는 3개이고 다음과 같이 입력

범주

더미변수 1 (D1)

더미변수 2 (D2)

더미변수 3 (D3)

여름

가을

겨울

0

1

0

0

0

0

1

0

0

0

0

1

        → B0(상수)=60, B1=40, B2=-10, B3=10, B4(광고비)=20일 경우

        → 해석 : 봄이 기준, 여름은 봄에 비해 매출액이 40 많음, 가을은 10 적음, 광고비에 따라 매출액이 20씩 증가함

        → 의미 : 더미변수를 이용하여 회귀분석함으로써 명목척도로 측정된 독립변수의 영향을 제거하여 남은 독립변수

            들과 종속변수의 관계를 보다 정확하게 측정할 수 있음. 문제에서 계절이 매출액에 미치는 영향을

            더미변수들을 이용하여 제거함으로써 광고비가 미치는 진정한 영향을 파악할 수 있음

[사례] 독립변수 광고비, 판매원수, 종속변수 매출액

    + R제곱 0.949로 회귀선이 종속변수의 변동을 잘 설명

    + F값이 84.040, 유의확률 0.000이므로 유의함

    + 표준화된 베타 : 변수간 단위가 다름. 어떤 변수가 영향이 큰지 파악

        → 판매원수(0.611)가 광고비(0.473)보다 매출에 영향이 큼

    + 회귀식 : -3.618 + 1.008 × 광고비 + 16.887 × 판매원수

 

 

□ 다중회귀분석에서의 유의할 문제

다중공선성

    + 단순회귀분석할 경우 유의적인 독립변수가 다중회귀분석시 비유의적이 될 수 있음

    + 그 독립변수가 다중회귀분석에서 다른 독립변수들과 높은 상관관계를 갖기 때문에 발생

    + 이런 현상을 공선성이라 하고 독립변수가 3개 이상이면 다중공선성이라고 함

    + EX, 한 지역 아파트가격을 종속변수, 방의 수, 평수를 독립변수로 하여 다중회귀분석시

        → 두 독립변수들은 높은 상관관계를 갖고 둘 중 하나는 비유의적으로 나타날 가능성이 높음

    + 동시 투입되는 독립변수들 간에 상관관계가 0인 경우는 사실상 없음

        → 다중공선성 문제가 발생하기 쉬움

    + 다중회귀분석 결과 해석시 어떤 독립변수들 계수가 비유의적으로 나타나는 경우 다중공선성 점검

    + 회귀분석의 목적이 어떤 변수가 종속변수에 어떤 방향으로 어느정도 영향을 주는지 조사하는 것이라면 다중공선성

       유의해야 함

    + , 다중회귀식을 발견하여 종속변수값의 예측만 한다면 다중공선성은 문제될 것 없음

    + [사례] 한 방송국 65세 이상 시청자 위한 TV프로그램 개발. 25명 대상 설문조사

        → 일일평균TV시청시간, 배우자 동거여부, 연령, 교육기간

        → 연령이 비유의적으로 나타남. 연령만 단순회귀분석하면

        → 유의확률이 0.079로 보다 유의적이 됨. 단측검정한다면 p-value=0.0395a=0.05에서 유의적

        → 세 변수간 상관관계를 보면 교육기간과 연령이 강한 부의 상관관계(-0.501)를 가짐. 그 영향으로 비유의적으로

            나타남

 

교육기간

동거여부

연령

교육기간

Pearson상관

유의확률(양측)

N

1

 

25

0.079

0.709

25

-0.501

0.011

25

동거여부

Pearson상관

유의확률(양측)

N

0.079

0.709

25

1

 

25

0.141

0.503

25

연령

Pearson상관

유의확률(양측)

N

-0.501

0.011

25

0.141

0.503

25

1

 

25

    + 두 변수간 상관관계가 높지 않아도 다중공선성 있을 수 있음

        → 한 독립변수가 다른 두 개 이상 독립변수들과 개별적 상관관계가 낮을 수 있지만 독립변수들의 결합과 높은

           상관관계를 가질 수 있음

        → 공차 또는 분산팽창요인(VIF)을 볼 필요가 있음

        → 분산팽창요인(VIF)는 공차의 역수값으로 VIF가 높을수록 공선성이 높음. 연령의 공차가 0.717 제일 적으므로

           다중공선성이 가장 높으나 0보다 상당이 크므로 심각하지는 않음

    + 다중공선성 해소 방법

        → 각 입력변수를 제거/추가하면서 회귀계수의 변동정도를 파악

        → 상관관계가 높은 독립변수 중 하나 혹은 일부를 제거한다

        → 변수를 변형시키거나 새로운 관측치를 이용한다.

        → 자료를 수집하는 현장의 상황을 보아 상관관계의 이유를 평가하여 해결한다.

과적합 문제

    + 표본의 크기가 작을 경우 상관계수가 큰 값으로 나타날 수 있음. 과적합 문제 발생

    + 과적합 문제 : 적합도가 높지 않은데 단지 표본의 크기가 작아서 높게 나타날 수 있음

        → 특히 독립변수의 수가 많은데 표본이 작은 경우 큰 문제 발생

        → 가급적 표본의 크기를 최소한 독립변수의 10배는 되어야 함

 

 

 

요인분석

 

□ 요인분석

목적

    + 공통요인분석(확인적 요인분석) : 분석 대상이 되는 변수들의 기저 구조 정의 목적

    + 주성분분석(탐색적 요인분석) : 다수의 변수를 소수의 요인으로 축약하기 위한 목적

        → 설명은 주성분분석 내용임

        → 음식점 설문. 대기시간, 청결, 음식 맛, 신선도를 변수로 조사시 대기시간과 청결이 유사하고 음식 맛과

            신선도가 유사한 결과가 나왔다면 대기시간과 청결은 서비스’, 음식 맛과 신선도는 음식의 질이라는 요인

           으로 해석

특징

    + 독립변수와 종속변수가 없음. 변수간 상관관계가 분석의 토대

    + 모집단의 특성을 추정하지 않음. 기술통계기법

    + 변수의 척도는 등간, 비율척도

    + 표본은 최소 50개 이상, 100개 이상이 바람직

    + 상관관계가 높은 변수끼리 그룹핑 하는 것으로 변수간 상관관계가 너무 낮으면 부적합(±0.3 이하)

요인의 추출(추출요인 개수)

    + 아이겐값 : 한 요인의 설명력. 한 요인에 대한 요인적재값의 제곱의 합

        → 1 이상 갖는 요인수 만큼 추출

        → 요인적재값 : 각 변수와 요인간의 상관계수 (-1 ~ +1)

    + 전체 요인들의 설명력 : 요인들의 설명력 합이 어느 수준 이상이 되어야 함

        → 사회과학에선 60% 내외

    + 스크리 도표 : 아이겐값이 큰 폭으로 떨어지다가 완만하게 되는 구간 직전까지의 요인수 추출

    + 사전에 요인 수 결정 : 연구자가 몇 개의 요인이 적절하다는 것을 사전에 알 경우

요인의 회전

    + 요인행렬 : 요인분석결과 산출되는 요인과 변수들의 상관관계(요인적재값)를 나타내는 행렬

    + 요인분석 비회전 요인행렬 도출(어떤 변수가 어떤 요인과 높은 관계인지 불명확) 추출된 요인회전(요인

       구조가 명확해짐)

        → 요인구조 : 변수와 요인간의 구조

    + 회전방법 : 직각회전방식과 사각회전방식 중 직각회전방식을 주로 사용

        → VARIMAX : 요인행렬 열(column)의 분산합계를 최대화 하여 열을 단순화 (적재값을 -1, 1, 0 가깝게 함).

           가장 많이 사용

        → QUARTIMAX : (row) 중심. 한 변수가 한 요인은 높게, 다른 요인은 낮게

        → EQUIMAX : 두 가지 절충

요인행렬 해석

    + 요인적재값은 -1 ~ +1 사이 값. ±0.5 이상일 때 실제적 유의성이 있음

    + 각 변수의 적재값을 여러 요인에 걸쳐 비교, 가장 높은 적재값 선택. ±0.5 이상

    + 커뮤낼리티 검토 : 보통 0.5보다 큰 것이 바람직

        → 커뮤낼리티 : 해당 변수가 다른 변수들과 공유하는 분산의 양. , 한 분산이 추출된 요인들에 의해 설명되는

           정도 (0~1)

        → 변수 1의 회전된 요인적재값이 요인 I (0.03), 요인 II (0.94)일 경우

    + 각 요인의 명칭 부여 : 같은 요인에 적재된 변수간 공통적 특성이 없을 경우 불확정 요인으로 명칭을 붙이거나

       이질적인 변수를 제거하고 다시 분석

요인분석결과 사용

    + 회귀, 판별분석 등 추가적 분석에 사용가능

    + 요인점수 계산하여 독립변수로 사용

        → 요인점수 : 다수 변수들에 대한 원래 자료값을 각 요인에 대한 값으로 변환시킨 값

[사례] 자동차 구매시 중요하다고 생각하는 10개 속성 7점 척도 25명 대상 조사

    + 3개의 공통요인의 아이겐값이 1을 넘음. 공통요인 3개 선정이 적절

    + 첫 번째 요인이 45%가량 설명, 3개가 95% 정도 설명

    + 첫 번째 공통요인은 성능, 연비 등과 상관관계가 높음. 대체로 성능

    + 두 번째 공통요인은 디자인, 스타일 등과 상관관계 높음. 디자인

    + 세 번째 공통요인은 가격

 

 

 

판별분석 

 

□ 판별분석

개념 : 독립변수는 비율, 종속변수는 명목척도인 변수간의 관계분석

    + 관측대상 특성 나타내는 변수 이용, 특정 대상이 어디에 속하는지 예측(판별), 선형의 판별식 구하기

        → ex) 기업도산여부, 고객대출여부, 고객이탈여부

    + 다른 분석과의 차이

        → 회귀분석 : 독립, 종속변수 모두 비율척도인 변수간의 관계 분석

         → 분산분석 : 독립변수 명목, 종속변수 비율로 판별분석과 반대

        → 요인분석, 군집분석 : 종속변수 개념 없음

    + 집단 내 분산 대비 집단 간 분산의 차이 최대화 하는 독립변수들의 계수 찾기

    + 독립변수의 선형결합함수를 판별함수(판별식)이라 함

    + 기본가정

        → 독립변수들이 다변량 정규분포를 이룸

        → 종속변수에 의해 범주화 되는 집단들의 분산-공분산행렬이 동일

    + 관측치 개수 : 관측치 개수가 독립변수 수의 20배 이상, 종속변수의 각 범주 당 최소 20개 이상

    + 사용목적

        → 중요변수파악 : 어떤 변수가 어떤 방향으로 얼마나 판별점수에 영향을 미치는지

        → 분류 : 새로운 대상의 독립변수 값으로 판별식 계산하여 어느 범주에 속하는지 예측

판별식 추정

    + 동시입력방식 : 고려하는 모든 독립변수들을 동시 입력하여 분석

    + 단계입력방식 : 판별력이 높은 순서로 독립변수 입력

판별함수 점검

    + 판별력 점검 : 윌크스람다 이용(0~1) 검증

        → 윌크스 람다 : 각 독립변수의 (집단내분산)/(집단내분산 + 집단간분산)

           집단 간 분산이 집단 내 분산에 비해 클수록 0에 가까워짐, , 확실히 구분됨. 판별력 큼

    + 전반적 적합도 점검 : 다중회귀분석시 F검증으로 유의적 판명이 되어도 이 높아야 설명력 높다고 받아드리는 것과

       유사

        → hit ratio(회귀분석의 상관계수 역할) : 정확히 분류된 비율 (0~100%)

[사례1] 70명 판매원의 사교성, 평점, 경력연수, 직무성적을 독립변수로 실적 상(집단2)하위(집단1) 구분

    + 집단통계량

        → 모든 변수 평균이 집단 2가 집단 1보다 높게 나타나고, 차이검증(ANOVA)결과 평점은 비유의적

        → 직무성적이 가장 작은 윌크스람다와 가장 큰 F. 판별력이 가장 높을 수 있음. , 두 집단 간 직무성적차이가

            가장 큼

    + 분산-공분산 행렬의 동일성 검증

        → 가정에 위배되지 않음 p-value : 0.105 (p>0.05이면 가정을 충족)

    + 해당변수가 판별에 미친 영향 확인

        → 표준화 정준판별함수 계수 : 회귀분석의 회귀계수(베타)에 해당

            직무성적이 가장 중요한 변수

        → 구조행렬 : 판별적재값(요인분석의 요인적재값에 해당). 변수와 판별함수간의 상관관계

            ±0.4이상인 경우 유의적. 직무성적과 사교성은 유의적이나 경력과 평점은 판별력이 별로 없음

    + 판별함수 도출

    + 분류함수 계수

        → 분류함수 : 새로운 대상의 분류집단을 결정하는데 사용하는 함수. 피셔의 선형판별함수

        → 새로운 분류대상을 독립변수값을 대입하여 분류집단 결정

        → 분류함수는 집단의 수만큼 도출

        → 사교성 40, 평점 3, 경력 7, 직무성적 80일 경우

            집단 1 = 0.233*40+2.581*3+0.848*7+0.628*80-33.277=39.562

            집단 2 = 0.288*40+1.803*3+1.084*7+0.751*80-44.462=40.135

            집단 2의 값이 더 크므로 집단 2로 분류

    + 분류결과 : 70명 중 52명이 정확하게 예측. hit ratio74.3%

[사례2] 24명 대상 A카드 멤버여부, 호텔식당 이용률, 스포츠시설 이용률, 연령, 월평균 소득 조사

    + 독립변수, 종속변수(집단변수, 카드 멤버여부) 지정. 단계입력방법 사용

    + 판별력 확인 위해 윌크스 람다 계산. 0에 가까울수록 두 집단이 확실히 구분. 판별력 큼

        → 선택된 변수가 판별에 얼마나 영향을 미쳤는지 알기 위해 표준화된 정준 판별함수의 계수 확인

        → 회귀분석의 베타에 해당하는 것. 스포츠시설 0.861로 호텔식당 이용률 0.722보다 큼. 스포츠 시설이용률이

            판별력이 더 큼

    + 판별함수 구하기 위해 비표준화 항목을 선택

        → 판별함수 : -4.344 + 0.498 × (호텔식당 이용률) + 0.630 × (스포츠시설 이용률)

        → 판별점수가 두 집단의 분류점보다 크면 집단 2, 작으면 집단 1로 판별

        → 분류점은 중간값. -1.1181.118의 중간값 0

    + 판별함수 구해진 후 새로운 대상이 어느 집단에 소속해야 하는지 알기 위해 피셔의 선형판별함수 이용

        → id 1(멤버X, 호텔5, 스포츠1)인 조사대상자와 22(멤버O, 호텔3, 스포츠3)인 조사대상자 소속 판별

        → id 1 = -4.344 + 0.498 × 5 + 0.630 × 1 = -1.224

        → id 22 = -4.344 + 0.498 × 3 + 0.630 × 3 = -0.964

        → 둘 다 0보다 작아 멤버십 보유 안한 것으로 분류됨. id 1은 맞게 분류, 22는 잘못 분류

        → 피셔의 선형판별함수 : 새로운 조사대상을 집단으로 판별하는데 사용. 판별값이 큰 쪽으로 집단을 판별

        → 새로운 조사대상자 식당이용률 1, 스포츠 3일 경우 판별식

            멤버십 없음 : -5.974 + 1.802 × 1 + 1.875 × 3 = 1.453

            멤버십 있음 : -15.689 + 2.916 × 1 + 3.283 × 3 = -2.924

        → 멤버십 없음 판별값이 더 크기 때문에 멤버십 없음으로 판별

    + 판별결과. 적중률 91.7%로 상당히 정교하게 판별

 

 

 

유사성 기준 분석 

 

□ 군집분석

개인 또는 여러 개체를 유사한 속성을 지닌 대상끼리 그룹핑하는 탐색적 다변량분석기법, 거리측정, 유사성 측정.

    세분시장 분류에 활용

타 분석과의 차이점

    + 요인분석 : 변수 그룹화. 군집분석은 개체 그룹화

    + 판별분석 : 종속변수 있음. 군집분석은 종속변수 없음

군집분석의 목적 : 유형탐색, 데이터 탐색, 데이터 제거, 가설검증, 가설도출, 모델적합도, 그룹에 기반한 예측

    (환자예측 등)

군집분석 응용 : 세분시장 구분, 기업유형 구분, 소비자 집단구분 등

    + 요인, 판별, 분산분석 등과 함께 사용가능

기본원리 : 대상간의 거리로 유사성 판단. 유클리드 거리, 맨해튼 거리, 민코우스키 거리 등

특징

    + 기술통계기법임. 정규성, 분산동일 등 가정 불필요

    + 다중공선성은 결과에 영향을 줌

군집추출

계층적 군집화 : 가까운 거리 대상들 하나씩 그룹핑, 순차적으로 다른 군집을 포함하는 큰 군집 형성

    다른 그룹과 중복 허용 안하는 조건 하. 자료크기 크면 분석 어려움

    + 군집들간 거리계산방식에 따라 구분

    + 단일결합법 : 최단거리 기준. 가까운 거리부터 순차대로 군집

    + 완전결합법 : 최장거리 기준

    + 평균결합법 : 군집 내 모든 구성원과 다른 군집 내 모든 구성원의 평균거리 기준

    + 와드법 : 군집간 거리 계산시 구성원 분산합 기준. 각 조합의 분산합의 거리가 짧은 것부터 군집

비계층적 군집분석 : 초기에 구하고자 하는 군집수 정하고 설정된 군집의 중심에 가장 가까운 개체를 하나씩 포함.

    최적군집 찾는 법. 많은 자료를 빠르고 쉽게 하지만 초기값에 따라 결과 달라짐

    + K-means : k는 군집수

      ① 하나의 군집씨앗 선택하고 사전 명시된 한정거리 이내 대상들의 씨앗 중심 군집화

      ② 다른 군집씨앗 선택 후 군집화

      ③ 어떤 대상이 한 군집에 속했어도 새로운 씨앗에 가까우면 새 씨앗 군집으로 할당

 

 

□ 다차원척도법

포지셔닝 분석을 통계적으로 수행하기 위한 방법론 중 대표적인 방법

    + 해당 상품군의 잠재적 소비자들이 중요하게 인식하는 판단기준 파악, 다차원 좌표평면 그림(지각도)

    + 유사성 지각도와 이상점(idea) 포함한 지각도

다차원척도법(MDS)의 정의 : 유사성 또는 선호도 자료에 기초하여 공간상 벡터 혹은 점으로 소비자 및 제품의 위치

    표시방법

    + 단일 알고리즘이 아닌 포지셔닝 목적 달성을 위한 시각화 전체를 의미

    + 개체 간의 거리/차이 또는 ()유사성이 주어졌을 때 공간상에 표현하여 전반적인 데이터 구조 파악

다차원척도법의 분류

 

 

 

컨조인트 분석

 

□ 컨조인트 분석

제품(서비스, 점포 등) 대안들에 대한 소비자의 선호 정도로부터 소비자가 각 속성(고유한 특성) 부여하는 상대적

    중요도와 각 속성수준의 효용을 추정하는 분석방법

    + 응답자들에게 여러 속성수준의 결합으로 구성되는 제품 프로파일(대안)들을 제시하고 응답자들은 각 프로파일에

       대한 선호 정도를 답함

    + ex, 여행사가 괌 신혼여행상품 개발시 여러 속성과 수준을 다음과 같이 한다면

        → 좌석(일등석, 일반석), 가격(150만원, 200만원)

상품

좌석등급

가격

상품1

일등석

150만원

상품2

일등석

200만원

상품3

일반석

150만원

상품4

일반석

200만원

        → 이 자료를 응답자들에게 제시, 각 상품의 선호 정도에 대한 응답을 컨조인트 분석

        → 각 속성의 상대적 중요도와 각 속성수준의 효용을 추정할 수 있음

        → 응답자마다 선호 정도가 다르게 나타남. 속성의 상대적 중요도가 다르기 때문

        → 상품23을 비교시 상품2를 더 선호한다면 좌석등급 중요시, 3을 선호한다면 가격 중요시

마케팅 활용

    + 소비자들이 제품의 각 속성에 부여하는 상대적 중요도와 각 속성수준의 효용 추정

    + 소비자들이 가장 높은 효용을 부여하는 속성수준들의 결합에 의해 신제품 개발

    + 속성수준이 다른 대안들의 시장 점유율 예측

    + 선호도가 유사한 소비자들을 군집화하여 시장세분화

        → 대안의 선호도를 등간척도 또는 서열척도로 측정

        → 등간척도는 메트릭 컨조인트 분석

        → 서열척도는 비메트릭 컨조인트 분석 (일반적)

프로파일 구성

    + 속성은 소비자들이 제품선택에 큰 영향을 미칠 수 있는 주요 속성으로 구성

    + 속성의 수와 수준이 많아지면 응답자 평가를 많이 해야 해서 안좋음

    + 속성수준의 범위가 현실적이고 넓은 것이 선호도 파악이 쉬움

        → 자동차 1800, 2000, 2200만 보다 1500, 3000, 5000

[사례] 카펫청소기

속성

속성설명

속성수준

디자인

청소기 디자인

A, B, C

브랜드

브랜드명

K2R, Glory, bissell

가격

청소기 가격

$11.99, $13.99, $15.99

성능보증

제품성능보증 여부

no, yes

환불보증

환불보증 여부

no, yes

    + 대안의 수 3 * 3 * 3 * 2 * 2 = 108

        → 응답자가 모두 비교 현실적 불가능. 부분요인설계로 대안수 줄임

    + 16개 대안 생성 가정. 첫 번째 속성 1, 3번재 속성 3 등 코딩, 프로파일 카드 인쇄

프로파일번호

디자인

브랜드

가격

성능보증

환불보증

1

3

3

2

1

1

2

3

2

1

2

2

3

2

1

1

2

1

~

~

16

2

1

2

1

2

    + 자료수집 : 10명에게 수집. pref1은 가장 선호, pref16은 가장 비선호

id

pref1

pref2

~

pref15

pref16

1

4

6

11

17

2

6

16

1

4

3

11

9

2

13

~

~

~

~

10

8

13

~

11

9

    + 분석결과는 응답자 개인별 분석결과와 전체 응답자의 평균을 보여줌

        → 전체 응답자의 평균(전체 통계량)이 더 중요함

    + 모형설명표. 각 속성의 수준과 성격(이산형/선형)을 나타냄 (마케터가 결정)

 

수준수

순위 또는 점수에 관련

디자인

3

이산형

브랜드

3

이산형

가격

3

선형 (미만)

성능보증

2

선형 (초과)

환불보증

2

선형 (초과)

        → 이산형은 값이 명목이라는 뜻이고, 선형(미만)은 속성값이 커지면 효용이 작아짐, 선형(초과)속성값이 커지면

           효용이 커짐

    + 응답자 분석

        → 개체 1은 첫 번째 응답자라는 뜻, 유틸리티는 각 속성 수준이 갖는 효용값. 클수록 선호

        → 속성이 이산형이면 유틸리티 합계는 0, 선형(미만)이면 ‘-’, 선형(초과)‘+’가 기대됨

        → 속성의 중요도 값은 (해당속성의 효용범위/모든 속성의 효용범위의 합계)*100%. 응답자가 해당 속성을 얼마나

            중요시 하는지

        → 각 속성의 효용범위는 가장 큰 값 - 가장 작은 값. 브랜드의 범위는 2.417-(-4.083)=6.500

        → 환불보증은 선형(초과)로 설정했으나 반대의 결과가 나타났음

    + 응답 해석

        → 브랜드를 가장 중요시 : 브랜드(53.1) > 환불보증(16.3) = 가격(16.3) > 디자인 > 성능보증

        → 디자인은 C, 브랜드는 Glory, 가격은 $11.99, 성능보증은 yes, 환불보증은 no

728x90