본문 바로가기

상상의 창 블로그/배움의 창

시장조사론 최종 정리

728x90

. 문제의 정의

. 자료수집방법_자료의 종류

. 자료수집방법_자료의 종류

조사방법론 구조

문제의 정의, 조사설계,

자료수집방법 결정, 표본설계,

시행, 분석 및 활용

 

조사계획서 작성

필요성, 조사절차, 비용 등

제목, 배경, 목적, 범위, 유형,

자료, 자료수집방법, 기대효과,

비용, 인력, 일정,

 

개념적 정의와 조작적 정의

개념적 정의, 조작적 정의,

둘의 관계, 예시

 

가설설정

가설의 정의, 가설의 조건

(명료, 가치중립적, 검증가능)

귀무가설, 대립가설 설명

 

1. 2차자료

2차자료와 1차자료

2차자료의 종류

내부, 외부, 신디케이트 자료

2차자료의 유용성

2차자료 적정성 평가기준

2차자료 한계

1차자료의 종류

정성자료(직접법, 간접법)

정량자료(기술조사, 인과조사)

 

탐색조사

심층면접법, 전문가의견조사,

표적집단면접(FGI), 투사법

 

외생변수

역사적 오염, 성숙효과, 시험효과,

측정의 편향, 표본선택의 편향,

통계적 회귀, 실험대상의 소멸

외생변수 통제법

제거, 균형화, 상쇄화, 무작위화

순수실험디자인

사전사후무작위 집단비교디자인

무작위 집단비교디자인

솔로몬 네집단 순수실험디자인

사전실험디자인

일회적 사례연구

단일집단 사전사후 측정디자인

집단비교디자인

유사실험디자인

비동질 집단비교 디자인

독립표본 사전사후 디자인

 

 

2. 1차자료

서베이법

서베이법 장단점

시행방식에 따른 분류

무응답 오류

설문지 종류

구조화/비구조화, 공개/비공개

질문과 응답형태 결정

개방형, 고정형

설문지 작성 유의사항

질문순서 결정

 

관찰법

관찰법의 개념과 종류

 

실험법

주요용어 및 실험의 종류

시험마케팅

표준/통제/모의 시험마케팅

실험의 타당성

내적타당성, 외적타당성, Trade-off

 

. 자료수집방법_측정과 척도

변수와 측정

변수와 구성개념

구성개념 정의방법

개념적 정의, 조작적 정의

측정의 개념

 

척도

척도의 종류와 특징

척도 개발시 고려사항

 

척도법

척도법의 분류

비교 척도법

메트릭 척도법

. 조사설계

조사설계 개요

조사방법 결정, 자료수집방법

결정, 조사계획서 작성

 

조사방법

탐색적 조사

목적, 특징, 종류, 효과(가설개발)

결론적 조사

목적, 종류, 횡단/종단 조사

기술조사(목적, 종류, 횡단/종단)

인과조사(목적, 추론방법)

동반발생, 시간적 선행, 대체설명

부재

 

. 자료수집방법_타당성 신뢰성

V. 통계_평균비교, 교차분석

V. 통계_회귀분석

척도의 평가와 오차

타당성과 신뢰성의 관계

체계적 오차, 비체계적 오차

 

타당성

기준 타당성

예측타당성, 동시타당성

내용 타당성

구성(개념) 타당성

집중(수렴)타당성, 판별타당성,

법칙타당성

타당성 향상방안

 

신뢰성

신뢰성 측정방법

반복 측정방법

내적 일관성 이용(크론바흐의 알파)

신뢰성 향상방법

 

평균비교 차이분석

t검정, 독립(명목), 종속(비율)

F,유의확률 0.05보다 커야함

등분산 동일 확인

t검정 0.05보다 크면 차이 없음

 

교차분석

─ 카이제곱, 독립(명목), 종속(명목)

자유도

(행의 수-1)*(열의 수 -1)

행열의 기대도수 차

(도수-기대도수)^2/기대도수 합

유의확률 0.05 기준

작으면 차이가 난다

 

회귀분석

독립/종속 (비율), 결정계수( )

전제조건

정규분포, 등분산, 독립성,

다중공선성 문제 없어야 함

기본가정

독립변수와 종속변수 선형성

오차의 정규성, 독립, 등분산

회귀식 발견 X범위 내에서 가능

 

단순회귀분석

회귀선 추정 원리

적합도(직선까지 거리 최소)

최소자승법

1에 가까울수록 잘 설명

F, 유의확률 안에서 유효

회귀식 : 상수 + 계수*X

해당 변수의 설명력

표준화된 베타

 

다중회귀분석

참고, 더미변수 활용

표준화된 베타가 클수록

종속변수에 영향이 큼

 

다중공선성

독립변수간의 상관관계가 영향

공차 : 해당변수가 독립적으로

설명할 수 있는 정도

작을수록 공선성 높음

분산팽창요인(VIF)

공차 역수, 클수록 공선성 높음

해소방법

 

과적합문제

표본 크기가 작으면 커짐

표본이 최소한 독립변수 10

 

V. 통계_분산분석

일원배치 분산분석

독립(명목), 종속(비율)

집단이 3개 이상, 동분산일 경우

가정

무작위성, 정규분포, 동분산

집단내 분산 작을수록 평균차

집단간 분산 클수록 평균차

F0.05보다 크면 차이 없음

 

이원배치 분산분석

처치효과

주효과 : 개별 영향

상호작용효과 : 복합 영향

상호작용항목 F값 유의미 확인

0.05보다 클 경우 차이 있음

 

. 표본설계

표본추출과정

표본오차, 비표본오차

모집단의 확정, 표본추출

프레임 결정, 방법 결정,

크기 결정, 실행

 

확률 표본추출 방법

단순무작위, 층화, 군집, 체계적

 

비확률 표본추출 방법

편의, 판단, 할당, 눈덩이

 

표본 크기 결정

신뢰수준 Z값 제곱(비례)

모집단 분산 추정치(비례)

허용오차(반비례)

 

V. 통계_공분산, 상관분석

변수들간의 관계

공분산, 상관분석, 회귀분석

 

 

V. 통계_요인분석

V. 통계_판별분석

V. 통계_다차원척도법

목적

다수의 변수를 소수로 축약

 

특징

독립(비율), 종속(비율)

표본은 최소 50개, 100개 이상

변수간 상관관계

 

요인의 추출

아이겐값, 스크리도표

 

요인의 회전

VARIMAX(열), QUARTIMAX(행)

EQUIMAX(두 가지 절충)

 

요인행렬 해석

요인적재값 0.5이상일 때 유의

가장 높은 적재값

커뮤낼리티 검토

요인의 명칭 부여

 

요인분석

아이겐값 1 이상 개수

성분 커뮤낼리티로 묶음

 

판별분석

p값이 0.05보다 크면 충족

판별함수

정준판별함수 계수 사용

표준화된 정준판별함수. 판별력

분류함수

피셔의 선형판별함수

집단의 수 만큼 도출

새로운 대상을 적용, 판별값이

큰 집단으로 분류

hit ratio로 분류결과 파악

 

다차원 척도법

포지셔닝 분석을 위한 방법

지각도

일반, 이상점

 

정의

유사성 또는 선호성 자료 기초

공간상 벡터, 점으로 위치 표시

단일 알고리즘이 아닌 시각화

전체를 의미

개체간 거리, 유사성 등 공간상

표시로 전반적 데이터 구조

파악

 

V. 통계_군집분석

군집분석

대상간 거리로 유사한 속성을

지닌 대상끼리 그룹핑

거리측정, 유사성 측정

세분시장 분류에 활용

목적

 

타 분석과의 차이점

 

군집추출 구분

계층적 군집화

가까운 대상끼리 하나씩 그룹핑

단일결합법, 완전결합법,

평균결합법, 와드법

비계층적 군집화

초기에 군집 수 설정

k-means

V. 통계_컨조인트 분석

정의

대안들에 대한 소비자 선호

정도로 상대적 중요도와 속성별

효용 추정 분석

 

마케팅 활용

 

분석

속성별 대안 구성(프로파일)

프로파일별 순위자료 수집

모형설명표

이산형(명목)

선형(미만) 속성값 커지면 효용

적어짐

선형(초과) 속성값 커지면 효용

커짐

이산형 합계는 0

중요도값 비교

유틸리티점수로 최적 대안 선택

 

V. 통계_판별분석

개념

독립(비율), 종속(명목), 판별식

중요변수 파악(판별점수 영향)

새로운 대상의 분류

다른 분석과의 차이점

종속변수 개념, 척도

 

기본가정 정규분포, 동분산

 

판별함수

윌크스 람다

0에 까까울수록 판별력 큼

 

 

. 문제의 정의

1. 조사방법의 절차를 설명하시오.

조사방법은 다음의 순서로 진행이 된다.

문제의 정의 : 마케팅 의사결정문제가 발생하면 어떻게 조사할 것인가 문제를 정의한다.

조사설계 : 문제에 대해 가설검증을 위한 문제에 대한 포괄적 계획 수립한다. 어떤 조사방법을 적용할 것인가를

결정한다.(탐색/기술/인과)

자료수집방법 결정 : 2차자료 수집 후 필요에 따라 1차자료를 수집한다. )관찰법, 서베이법, 실험법, 심층면접법 등)

표본설계 : 조사대상, 표본추출 방법, 표본크기 등을 결정하고 표본을 추출한다.

시행

분석 및 활용 : 코딩 후 통계분석을 하고 리포팅을 한다.

 

 

2. 조사계획서 작성시 포함되어야 하는 항목은 어떤 것이 있는가?

조사계획서는 조사를 시행하기 전 경영진에게 조사에 대한 필요성, 절차, 비용들을 설명하여 조사 승인을 받기 위하여 작성한다.

 

계획서에 포함되는 주요한 항목은 다음과 같다.

제목 : 조사계획명

배경 : 마케팅 의사결정문제가 발생했음을 설명

목적 : 의사결정문제, 조사문제, 조사의 목적 등을 통해 조사가 필요함을 설명

조사의 범위, 유형, 수집자료 : 실험, 서베이 등 조사의 방법과 수집할 내용 등

자료수집방법 : 대상(모집단), 표본추출방법, 표본의 크기 등

조사의 가치(기대효과) : 조사의 결과 얻을 정보의 가치와 활용방안

일정과 조사팀의 구성 : 조사인력 프로필, 조사에 소요되는 일정과 스케쥴

비용 : 조사에 필요한 비용

 

 

3. 개념적 정의와 조작적 정의를 설명하고 둘 사이의 관계를 예시를 들어 설명하라.

(1) 구성개념

개념적 정의를 설명하기에 앞서 구성개념을 먼저 설명한다.

구성개념은 조사대상이 가지고 있는 추상적인 변수로 측정이 불가능한 상태이다. 구성개념을 정의하기 위해 개념적 정의와 조작적 정의를 활용한다.

 

(2) 개념적 정의와 조작적 정의

개념적 정의 : 하위개념들을 활용해 개념의 범위를 한정짓는 것으로 측정이 가능하지 않다.

조작적 정의 : 구체적으로 현실에서 측정이 가능하도록 변형(조작) 하는 것이다. 마케팅조사를 하기 위해서는 조작적

정의가 필요하다.

, 개념적 정의를 통해 용어의 의미를 보다 분명히 하고 조작적 정의를 통해 구체화 하여 측정가능하도록 하는 것이다.

 

예를 들어 고객의 브랜드 충성도라는 구성개념이 있다면,

개념적 정의는 고객이 브랜드에 대해 애착을 느끼는 정도 라고 할 수 있고

조작적 정의는 해당 물품군 10회 구매시 해당 브랜드를 구매하는 빈도로 측정할 수 있도록 정의하는 것이다.

 

 

4. 가설이란 무엇이며 가설이 갖추어야 할 조건은 어떤 것이 있는가?

가설이란 어떤 문제에 대한 잠정적 해답으로 2개 이상의 변수간의 관계를 설명하는, 검증 가능한 진술이다.

 

가설이 갖추어야 할 조건은 다음과 같다.

명료해야 한다 : 누구나 동일한 해석을 할 수 있도록 명확해야 한다.

가치중립적이어야 한다 : 조사자의 편견이 들어가면 안되고 객관적이어야 한다.

검증가능해야 한다 : 현실에서 측정과 검증이 가능해야 한다.

 

참고로 가설검증을 위해 알아보고자 하는 명제를 대립가설(연구가설)이라 하고 이와 반대상황으로 거짓으로 밝혀지면 대립가설이 참이되는 가설을 귀무가설(영가설) 이라고 한다.

 

 

 

. 조사설계

1. 조사설계단계를 설명하시오.

조사설계는 조사에 대한 전반적인 계획을 수립하는 단계로 크게 조사방법 결정, 자료수집방법 결정, 조사계획서 작성이 있다.

 

조사방법 : 어떤 조사방법을 할 것인가를 결정하는 것으로 탐색조사, 기술조사, 인과조사 등을 결정하는 것이다.

자료수집방법 결정 : 표본설계, 표본추출방법, 표본수, 예산, 조사자 선정 등을 결정하는 것이다.

조사계획서 작성 : 계획서 작성을 통해 경영자에게 승인을 얻고 실행하는 절차이다.

 

 

2. 조사방법의 종류에 대해 설명하시오.

조사방법은 크게 탐색적 조사와 결론적 조사가 있다.

 

(1) 탐색적 조사

본 조사 이전에 인사이트를 얻어 가설을 세우기 위해 진행한다. 정확한 절차 보다는 내용 파악을 위해 유연성을 가지고 조사를 한다.

탐색적 조사에는 1차자료조사와 2차자료조사가 있다.

2차자료는 기존 자료 중 해당 문제를 해결하는데 도움이 되는 자료로 내부자료(회계자료, 마케팅자료 등)과 외부자료(정부보고서, 기관보고서 등)가 있다.

2차자료로 충분하지 않을 경우 1차자료를 수집한다. 1차자료에는 심층면접법, FGI(표적집단면접법), 델파이법, 투사법 등이 있다.

 

(2) 결론적 조사

계량화 하여 결론을 내리기 위해 하는 조사로 기술조사와 인과조사가 있다.

 

(3) 기술조사

어떤 대상을 설명하는 것을 목적으로 하는 조사로 서베이법과 관찰법이 있다.

조사하는 시점에 따라 한 시점을 조사하는 횡단조사와 시계열 분석을 하는 종단조사가 있는데 횡단조사는 한 시점을 1회 조사하는 것으로 대부분 조사가 횡단조사이다. 종단조사는 동일한 대상을 시간의 흐름에 따라 조사하는 것으로 패널 등을 활용한다. , 모집단을 충분히 대표할 수 있다면 대상이 달라도 정기적 조사 등은 종단조사가 가능하다.

 

(4) 인과조사

2개 이상 변수간의 관계를 파악하기 위한 것으로 실험법이 있다.

변수간의 관계가 있다는 결론이 나와도 인과성을 나타내지는 않는다. 다만 확률적으로 추정만 가능한데 일반적으로 다음 3가지 조건이 만족한다면 인과관계가 있다고 추정한다.

동반발생 : X의 변화와 Y의 변화가 동반되서 발생하거나 가설이 예측하는 방향으로 발생해야 한다.

광고비X가 늘면 매출Y가 증가한다는 가설검정시 광고비가 적은 것 보다 많은 경우 매출이 더 커야 함

시간적 선행성 : X가 변화하고 난 후 Y가 변해야 한다.

대체설명 부재 : 해당 가설 외 대체할 수 있는 설명이 없어야 한다.

 

위의 3가지 중 하나라도 성립하지 않으면 명확한 인과관계라고 보기 어렵다.

 

 

 

. 자료수집방법_자료의 종류

1. 1차자료와 2차자료를 설명하고 2차자료의 특징에 대하여 설명하시오.

1차자료는 해당 마케팅문제 해결을 위해 직접 자료를 수집하는 것이고, 2차자료는 다른 목적으로 수집된 자료로 이미 존재하는 자료이다.

1차자료는 해당 문제에 대한 적합성이 높지만 많은 시간과 비용이 들어가므로 2차자료로 문제를 해결할 수 있다면 2차자료를 활용하기도 한다.

 

(1) 1차 자료

1차자료는 정량자료와 정성자료가 있다.

 

정량자료 : 수치화할 수 있는 자료로 자료를 계량화 하여 엄밀한 분석을 할 수 있다. 기술조사와 인과조사가 있다.

정성자료 : 정량자료의 한계(숨겨진 내면의 것, 설명이 필요한 것 등)가 있을 경우 보완적으로 사용할 수 있다 .직접법은 조사의 목적을 밝히고 하는 조사이고 간접법은 조사의 목적을 숨기고 하는 조사이다. 간접법이 필요한 이유는 사회적 체면 등으로 속의 이야기를 제대로 표현하지 못할 경우 간접적으로 내면의 이야기를 끌어내기 위해 사용한다.

 

(2) 2차 자료

2차자료는 1차자료를 수집하기 전 사전 검토용(탐색조사)으로 활용하기도 한다.

조사문제에 대한 명확한 규명이나 문제에 접근 방법을 사전에 고찰하여 적절한 조사설계를 제시하고 조사문제에 대한 가설을 제공하는 효과가 있다.

내부자료와 외부자료

: 2차자료는 내부자료외부자료로 나눌 수 있는데 내부자료는 기업 내부에서 가지고 있던 회계자료, 마케팅자료, 각종 보고자료 등이 있다. 외부자료는 기업 외부의 기관이나 단체, 조사회사 등에서 수집한 자료이다.

특히 조사회사에서 작성한 자료 중 신디케이트자료라는 것이 있는데 이는 전문 조사회사에서 표준화하여 정기적인 조사를 하고 이를 판매하는 자료이다. 일반적으로 패널을 이용하여 정기적 조사를 진행하는데 1차자료보다 저렴하고 구입 즉시 활용할 수 있는 장점이 있다. , 해당 문제에 정확히 일치하지 않을 수도 있고 패널의 익명성 보장이 약하므로 솔직한 대답이 아닐 위험성도 고려해야 한다.

2차자료의 평가

- 조사 문제와 관련성이 있는가

- 자료에 정확성과 타당성이 있는가

- 자료가 시기적절하게 사용할 수 있는가

2차자료의 한계점

- 적합성 문제 : 단위 등이 정확한지, 변수의 개념이 조사하고자 하는 기준과 같은지, 수집시점이 적용 가능한지 등이다.

- 정확성 : 조사 진행시 전 단계에 걸쳐 발생할 수 있는 오류를 발견하기 어렵고 발견하더라도 수정이 쉽지 않다.

 

 

2. 탐색조사의 종류에 대해 설명하시오.

심층면접법 : 조사자와 대상자가 1:1로 인터뷰를 하는 것으로 편안한 가운데 마음 속 깊은 이야기 까지 끌어내는

방법이다. 조사자의 커뮤니케이션 스킬이 많이 필요한 방법이다. 응답자가 바뀌면 결론이 바뀔 수 있다.

표적집단면접법 : FGI라고도 하는 방법으로 6~12명 가량의 응답자와 사회자로 구성한다. 주제에 대해 자유롭게

이야기를 나누는 것으로 서로 대화 가운데 기발한 결과까지도 도출할 수 있는 장점이 있다. 비언어적인 부분도

관찰이 가능하다. 어떤 응답자를 구성하는지 즉, 적합한 응답자를 잘 모으는 것이 관건이다. 결과를 일반화 하기에는

한계가 있다.

델파이법 : 해당 도메인 전문가의 의견을 듣는 것으로 심층면접법이나 FGI방식으로 진행 할 수 있다. 정형화된 질문

보다는 진행하면서 유연하게 활용한다.

투사법 : 간접법으로 대개 조사의 목적을 밝히지 않고 진행한다. 숨겨진 내면의 생각을 꺼내기 위해 제 3자에게

비추어 설명하게 하는 방법이다. 응답자 본인도 인지하지 못하는 부분까지도 발견할 수 있다. 단어연상법, 만화

완성법, 그림묘사법 등 다양한 방법으로 실행된다.

 

 

3. 서베이법을 설명하시오.

(1) 장단점

장점

- 대규모 조사가 가능하다

- 대규모 표본으로 일반화가 가능하다

- 직접 관찰할 수 없는 동기, 개념 등의 측정이 가능하다.

- 자료의 코딩과 분석이 용이하다.

- 계량적 분석과 객관적 해석이 가능하다.

단점

- 설문지 개발이 어렵다.

- 복잡한 질문은 하기 어렵다.

- 조사에 오랜시간이 소요되고 응답률이 낮다.

- 부정확하고 성의없는 응답 가능성이 있다.

 

(2) 시행방식에 따른 종류

대인 인터뷰법

: 면접원이 직접 응답자를 만나서 하는 서베이로 질문에 대한 이해를 돕거나 시청각 자료 등을 제시할 수 있어 어려운 질문도 가능하다. 면접원에 따른 편향이 나타날 수 있고 접촉범위가 좁다. 접촉점위가 좁고 익명성이 보장 안되어 민감한 질문을 하기 어렵다. 몰인터셉트 인터뷰, 방문인터뷰, 컴퓨터이용 인터뷰 등이 있다.

전화 인터뷰법

: 비교적 저렴한 비용으로 할 수 있고 조사원 통제가 비교적 용이하나 복잡하거나 긴 설문이 불가하고 면접원 편향이 나타날 수 있다.

우편 인터뷰법

: 패널을 구성하여 패널에게 정기적으로 우편서베이를 하는 방법이다. 저렴하고 넓은 범위를 커버할 수 있으나 시간이 오래 걸리고 응답률(회수율)이 낮다. 본인이 직접 작성하지 않았을 수도 있다.

무응답 오류 등을 유의해야 한다. 응답자에게 경품 등 활성화 유도장치가 필요하다.

온라인 인터뷰

: 최근 많이 이용되는 방법이다. 시간과 공간적인 제약이 적은 편이고 응답 즉시 분석이 가능하다.

 

(3) 무응답 오류 줄이는 방법

- 정확한 DB를 구축

- 조사가능시간에 유리한 조사방법 선정

- 리스트 클리닝

- 리스트 스크리닝

- 설문조사 참여 동기부여 수단

 

(4) 설문지의 종류

구분

공개적

비공개적

구조화

조사의 목적이 공개.

정해진 형식대로 답하는 설문.

가장 보편적으로 사용

조사의 목적을 밝히지 않음. 민감이슈

실험에서 실험목적을 밝히지 않거나

다른 목적이라고 위장하여 사용

비구조화

체크리스트 형식

응답에 대응하여 유연하게 질문 조정

탐사방식. 심층면접에 널리 사용

표적집단면접법에서 활용

목적도 밝히지 않고 정형화된 형식도 없는 설문지로 탐색조사의 투사법에 사용

 

(5) 질문과 응답형태 결정하는 방법

개방형 질문 : 주관식 문항으로 창의적인 응답을 기대할 수 있으나 코딩이 어렵다. 제한적으로 사용된다.

고정형 질문 : 객관식 문항으로 코딩이 쉽고 응답이 쉬우나 응답자가 원하는 선택지가 없을 수도 있다.

척도점을 이용한 질문도 널리 이용된다.

 

(6) 설문지 작성시 유의사항

- 유도성 질문은 삼간다.

- 하나의 질문에 하나의 답변만 있어야 한다.

- 쉬운 표현으로 하고 애매모호한 표현은 사용하지 않는다.

- 응답이 중복되면 안된다.

- 응답할 수 없는 질문은 하지 않는다.

- 민감한 내용의 질문은 우회적으로 한다.

 

(7) 질문의 순서결정시 고려사항

- 단순하고 흥미를 느낄만한 질문으로 시작한다.

- 개인정보 등은 가장 뒤에 배치한다.

- 민감한 질문은 중반 이후에 배치한다.

- 일반적인 질문부터 시작하여 점차 까다로운 질문은 뒤쪽에 배치한다.

- 설문지가 길 경우 중요한 질문은 앞쪽에 배치한다.

 

 

4. 관찰법을 설명하시오.

(1) 정의

관찰법은 대상의 행동패턴을 기록하고 분석하는 것으로 조사자가 개입하지 않고 대부분 조사하는 것을 모르게 진행하는 경우가 많다. 비교적 편향이 없는 자료를 얻을 수 있고 말로 표현하기 힘든 것도 조사할 수 있다.

그러나 신념과 태도 등은 조사가 어렵고 일반화가 어렵다. 조사자마다 해석이 다를 수 있다.

 

(2) 관찰법의 구분

공개적 관찰 : 관찰되는 것을 드러냄. 특수한 경우

VS. 비공개적 관찰 : 일반적. 대상자의 인구통계학적 정보 등 수집하는데 한계, 사생활 침해 우려

구조화된 관찰 : 사전에 관찰할 내용을 명확히 결정. 오류 가능성 줄이고 신뢰성 높힘

VS. 비구조화된 관찰 : 조사와 관련된 모든 행동을 관찰자의 판단에 따라 관측(탐색적 조사)

자연상태 관찰 : 실제상황과 동일. 외적 타당성 높으나 특정 관찰을 위해 많은 시간과 노력 필요

VS. 인위적 환경 관찰 : 특정 환경을 조성하고 관찰(실험). 외적 타당성 문제 발생

인적관찰 : 사람이 직접 관찰. 실사, 재고조사 등. 예상치 못한 행동 발견. 객관적이지 못함

VS. 기계적 관찰 : 기계 시스템 이용. 객관적이고 정확한 관찰

직접관찰 : 행동이 일어나는 시점에 관찰자가 직접 관찰 (계산대에서 판매수량 관찰)

VS. 간접관찰 : 행동의 결과 발생한 흔적을 관찰 (쓰레기통 관찰)

 

 

5. 실험법을 설명하시오.

주요용어

매개변수 : AB에 영향을 주고 BC에 영향. A(독립변수) B(매개변수) C(종속변수)

조절변수 : 독립변수와 종속변수 사이에 영향이 크면서도 불명확한 영향을 미치는 변수. ,

조절변수가 존재할 때만 독립변수와 종속변수 사이의 이론적 관계가 성립

+ AC에 영향을 줄 때 B에 따라 C의 결과가 달라지는 변수.

+ EX, 학습시간(독립변수) 성적(종속변수), 공부방법(조절변수)

외생변수 : 독립변수 외 종속변수에 영향을 미치는 모든 변수

통제 : 실험과정에서 외생변수를 고정시키는 것

(1) 정의

실험법은 어떤 두 개 이상의 변수간의 관계를 파악하는 것으로 주로 엄격히 통제된 상태에서 실험을 통해 진행이 된다.

크게 실험실 실험과 현장실험으로 구분할 수 있는데 실험실 실험은 인위적인 환경에서 조사변수 이외의 변수를 통제하고 하는 실험으로 엄밀하고 타당성을 갖추기 쉽지만 일반화가 어렵다. 보통 어떤 관계의 메커니즘을 발견하기 위해 진행이 된다.

현장실험은 실제 결과물이 적용이 될 현장에서 진행하는 실험으로 여러 외생변수를 통제하기 어려우나 현실성이 높다. 출시를 앞둔 상태에서 많이 사용하는 방법이다. 경쟁사에게 노출될 위험성도 있다.

 

(2) 시험마케팅

특히 마케팅에서 사용하는 실험은 시험마케팅이라고 하는데 신제품 출시 전 디자인, 가격, 광고 등이 매출에 어떤 영향이 있는지를 테스트하기 위하여 진행하는 경우가 많다.

시험마케팅은 크게 3가지가 있다.

표준시험마케팅 : 실제 시장에서 진행되는 실험으로 외적 타당성이 높다. 그러나 외생변수가 많아 내적 타당성을 확보하기 어렵고 경쟁자들에게 노출될 위험성이 있다.

통제시험마케팅 : 제한된 현장에서 실험하는 것으로 비용과 외부 노출을 줄일 수 있지만 제한된 범위에서 하므로 신뢰성이 낮다.

모의시험마케팅 : 모의점포에서 이루어 지는 실험으로 외부노출은 최소화할 수 있고 외생변수도 통제가 가능하여 내적 타당성은 높지만 외적타당성이 낮다.

 

(3) 타당성

여기서 타당성을 살펴보면, 실험의 타당성이란 얼마나 주제를 잘 반영하는지 여부로 내적 타당성과 외적 타당성이 있다.

내적 타당성 : 독립변수가 종속변수를 잘 설명하는 여부로 실험실 실험의 경우 외생변수 통제로 내적 타당성이 높다.

외적 타당성 : 다른 시점이나 점포에서 측정해도 동일한 결과를 얻는 정도이다. 표준시험마케팅이 가장 외적 타당성은 높지만 내적 타당성은 낮다.

, 외적 타당성과 내적 타당성은 서로 트레이드 오프 관계가 있다.

실험의 목적에 따라 원인파악 등을 위해서는 내적 타당성이 높은 실험실 실험을, 출시 전 테스트는 외적 타당성이 높은 표준시험마케팅이나 통제시험마케팅을 진행한다.

 

(3) 실험디자인의 유형

술수실험디자인, 유사실험디자인, 사전실험디자인이 있고 전자일수록 엄격하고 후자일수록 간편하다.

순수실험디자인

유사실험디자인

사전실험디자인

실험처치, 대상, 시기 등이 통제 가능. 실험집단과 통제집단, 랜덤화

랜덤화가 어렵거나 순서통제가 어려운 경우. 내적 타당성을 상당히 확보. EX) 반 편성 랜덤 가정

무작위 없이, 경우에 따라 통제집단 없이. 엄격함이 덜 요구될 때

간단히 시행

사전사후무작위집단비교디자인

비동질 집단비교 디자인

일회적 사례연구

EG[R] O1 X O2

CG[R] O3 O4

상호작용 시험효과 제거 못함 EG

실험효과는 (O1-O2)-(O3-O4)

EG : O1 X O2

CG : O3 O4

사전사후무작위집단비교디자인과 유사

EG X O

인과관계는 볼 수 없으나 대략적인 경향파악을 위해 실시

무작위 집단비교 디자인

독립표본 사전사후 디자인

단일집단 사전사후 측정 디자인

EG[R] X O2

CG[R] O4

사전측정 없음. 사전 동일하다고 가정. 간편하여 널리 사용하나 무작위의 대표성 확인이 어려움

표본 1: O1

표본 2 : X O2

표본을 분리하지 않고 서로 독립적인 2개 표본 대상.

현장실험의 경우 실험처치 전 후 비교가 어려우므로 독립표본 사전사후 디자인 자주 활용

EG O1 X O2

실험처치효과 측정 가능하나 역사적 오염, 성숙효과, 측정편항 등이 발생

솔로몬 네집단 순수실험 디자인

집단비교디자인

EG1[R] O1 X O2

CG1[R] O3 O4

EG2[R] X O5

CG2[R] O6

가장 엄격하고 정교하지만 비용문제로 널리 하지 않음

EG : X O1

CG : O2

무작위 할당을 하지 않음으로 내적타당성 저해

 

 

6. 외생변수의 종류와 통제방법을 설명하시오.

(1) 외생변수의 종류

외생변수는 독립변수 외에 종속변수에 영향을 주어 혼란을 야기하는 것으로 다음과 같은 것들이 있다.

역사적 오염 : 실험 중 특이한 사건의 발생하는 것으로 경제적 악화, 다른 정보와의 접촉 등이다. A/B 테스트로 두

집단 중 한집단만 실험처리하여 비교한다.

성숙효과 : 시간이 흐름에 따라 피실험자의 특성이 변화하는 것으로 피곤함, 익숙해짐 등이 있다.

시험효과 : 처음 측정한 값이 다음 측정에 영향을 미치는 것이다. 주시험효과와 상호작용시험효과가 있다.

- 주시험효과 : O1O2에 영향을 주는 것으로 일관적인 대답을 하려는 경향 때문에 나타난다.

O1 X O2 | O1 O2

- 상호작용시험효과 : O1로 관심도가 올라가 X에 영향을 미치는 것이다.

O1 X O2 | O1 X

측정의 편향 : 측정도구나 방법이 변화하여 측정값이 변화하는 현상이다.

표본선택의 편향 : 표본을 잘못 선택하여 대표성이 낮아지는 것이다. 랜덤화가 필요하다.

통계적 회귀 : 1차 시험에서 부정적인 사람이 X의 효과가 아닌 단순 통계적 회귀로 긍정적이 될 수 있다.

실험대상의 소멸 : 피실험자 중 일부가 이탈하여 값이 변화할 수 있다.

 

(2) 외생변수 통제방법

제거 : 영향 미칠 수 있는 외생변수 모두 제거한다.

균형화 : 외생변수에 동일하게 노출되도록 실험집단과 통제집단으로 나누어 실험한다.

상쇄화 : 외생변수의 강도가 다른 상황에서 다른 실험을 함으로 상쇄화 시킨다. 2개 이상의 실험변수가 가해질 때

사용된다.

무작위화 : 통제집단, 실험집단을 무작위화 하고 선정하여 대표성을 높이고 외생변수 영향력을 없앤다.

 

 

 

. 자료수집방법_측정과 척도

1. 구성개념을 설명하시오.

(1) 구성개념의 정의

변수는 구체적 변수와 추상적 변수를 포함하는 것으로 척도를 이용하여 관심의 대상이 되는 개체의 속성을 측정한 값으로 나타낼 수 있는 특성이다. 구성개념은 추상적인 변수로 덜 추상적인 하위변수를 이용하여 정의할 수 있다.

 

(2) 개념적 정의와 조작적 정의

구성개념을 정의하는 방법은 두가지가 있다.

개념적 정의 : 하위개념을 이용하여 정의하는 것으로 측정은 불가능하지만 범위를 한정지을 수 있다.

조작적 정의 : 정의를 측정 가능하도록 조작하는 것이다.

브랜드 충성도라는 추상적인 구성개념을 측정하기 위해서는 특정 브랜드에 애착을 느끼는 정도라고 개념적 정의를 할 수 있다. 측정을 위해서는 10회 구매 중 해당 브랜드 구매빈도 등으로 조작적 정의를 하여 측정할 수 있다.

 

 

2. 측정과 척도란란 무엇이며 척도의 종류와 특징을 설명하시오.

(1) 측정과 척도

측정이란 미리 정해진 규칙에 따라 변수를 수치나 기호로 1:1로 대응하는 과정이다.

척도는 측정하는 도구로 측정값을 척도라는 연속 체계위에 배치하는 것이다.

 

(2) 척도의 종류

척도는 크게 4가지고 있고 다음과 같은 특징이 있다.

척도

특징

예시

계산가능

통계량

가능한 분석법

명목척도

대상을 구분할 목적

Categoryclass로 구분

하나의 부류에만 속해야 함

계산 불가

성별, 학번

최빈값, 빈도수,

퍼센트

이항검정, 카이스퀘어검정, 사인테스트

서열척도

상대적 위치. 범주와 서열정보

크기의 차이는 의미 없음

순서만 중요

학급석차,

선호순서

명목척도 통계량

+ 백분위수,

중앙값

스피어만 서열 상관계수,

순위를 이용한 분산분석

등간척도

간격이 동일. 거리개념이 있음.

범주 서열 정보 있음.

절대 0’이 존재하지 않음

덧셈, 뺄셈 가능

온도, 지능지수, 소비자만족지수

서열척도 통계량

+ 평균,

표준편차

서열척도 통계분석 + 피어슨 상관계수, 분산분석, 요인분석, 회귀분석 등

비율척도

절대 0’을 포함한 다른 척도의 성질을 다 가지고 있음

모든 통계분석 가능

무게, 길이,

나이, 가격,

시장점유율

모든 통계량

기하평균, 조화평균, 변동계수 등을 포함한 모든 통계분석

명목에서 비율로 갈수록 정보의 양이 많아진다.

 

(3) 척도개발시 고려사항

척도점의 수 : 보통 5, 7의 홀수로 한다. 상관계수가 척도점의 수가 많아지면 높아진다. 세밀한 통계분석을 요할 때는 척도점을 많이 한다.

짝수, 홀수 척도점 : 중간값을 인정할지 여부이다. 중간값을 인정하면 홀수로 한다. 짝수는 중간값을 인정하지 않아 특정값을 강요하게 된다.

균형, 불균형 : 일반적은 균형이나 특정 의견이 주를 이룰 때 한쪽에 치우친 불균형 척도를 이용하기도 한다. EX) 음주운전을 얼마나 반대하는가. 매우 반대, 반대, 약간반대, 부정적, 보통

응답 강요성 여부 : 의견없음을 인정할지 여부로 중간값이 대다수 이면 인정해야 한다.

척도 표현 : , , 아이콘 등

척도 설명 : 가급적 모든 척도에 달아 혼란 막는 것이 좋으나 조사 목적에 따라 적절히 판단한다.

 

 

3. 척도법에 대하여 설명하시오.

(1) 정의

척도법이란 측정과정에서 기호나 상징물에 할당되는 연속되고 일정한 체계를 만드는 과정이다. 크게 비교척도법과 메트릭 척도법이 있다.

 

(2) 비교척도법

비교척도법은 여러 대상을 직접 비교하는 것이고 메트릭척도법을 값을 측정하여 비율이나 등간척도 방식으로 하는 것이다.

비교척도법은 같은 기준으로 측정되어 비교가 가능하고 응답자가 쉽게 이해할 수 있고 적용이 간편하다.

서열척도 이므로 통계량과 통계분석이 제한적이고 측정 시 적용된 대상을 넘어 일반화가 어렵다.

쌍대비교척도법 : 2개씩 짝을 지어 선호하는 것 측정. 다차원척도법(MDS) 등 다양한 분석기법 위해 사용

대안수가 적은 경우 응답이 쉽고 결과가 명확. 많아지면 경우의 수가 너무 커짐. 비현실적. 절대적 선호도

파악은 어려움. 비선호 제품군일 수 있음

순서서열척도법 : 순위 부여. 1순위라고 선호된다고 볼 수 없음. 현실적. 대안의 수가 많아지면 어려워짐

고정총합척도법 : 총합을 정해주고 기준에 따라 대상별로 점수 할당.비율척도로 볼 수도 있음.

 

(3) 메트릭 척도법

연속형 평가척도법 : 대비 개념 사이에 응답자가 느끼는 위치. 신뢰도 낮음. 잘 사용 안함

리커트 척도법 : 5내지 7점의 등간척도. 마케팅 조사에서 주로 사용. 관리도 쉽고 응답자 이해도 쉬운편

의미차별화 척도법 :

ex) 밝다 _ O _ _ _ _ _ 어둡다 동적이다 _ _ _ O _ _ _ 정적이다

스타펠 척도법 : 한가지 개념에 대하여 0을 제외하고 -5에서 +5까지 10점 척도로 측정. 응답자 혼란 우려

ex) -5 -4 -3 -2 -1 직원이 친절하다 +1 +2 +3 +4 +5

 

 

 

. 자료수집방법_타당성과 신뢰성

1. 척도의 평가시 타당성과 신뢰성을 점검한다. 타당성과 신뢰성의 종류와 오차에 대해 설명하시오.

(1) 타당성과 신뢰성의 종류

타당성은 측정값이 구성개념을 잘 나타내는 정도이고 신뢰성은 반복 측정을 해도 동일한 결과가 나오는 정도이다.

타당성이 높으면 신뢰성이 높고, 신뢰성이 낮으면 타당성도 낮다.

타당성이 낮으면 신뢰성이 높을 수도, 낮을 수도 있고, 신뢰성이 높으면 타당성이 높을 수도, 낮을 수도 있다.

(2) 오차

오차는 체계적 오차와 비체계적 오차가 있다. 다음과 같은 공식을 유추할 수 있다.

측정값 = 실제값 + 체계적 오차 + 비체계적 오차

체계적 오차는 특정 패턴이 있는 오차로 타당성과 관계가 있고 비체계적 오차는 특정 패턴이 없는 오차로 신뢰성과 관계가 있고 완전히 제거하지는 못한다.

 

 

2. 타당성 평가 방법과 향상방안을 설명하시오.

타당성은 실제값을 알지 못하므로 확인이 어렵다. 대신 다음의 세가지 조건을 만족시키면 타당성이 있다고 본다.

 

(1) 타당성 평가방식

기준 타당성

: 구성개념을 측정B가 잘 측정한다고 알려졌을 경우 그 구성개념을 측정A로 측정했을 때 측정A와 측정B가 상관관계가 높다면 그 구성개념을 잘 나타낸다고 할 수 있다.

예를 들어 신입생의 모집시 출중한 신입생(구성개념)을 선정하고자 한다면 훌륭한 신입생의 기준을 졸업시 평점(조작적 정의, 측정B)으로 평가하기로 한다. 졸업평점이 높은 학생들의 입학시 측정한 지표 중 상관관계가 높은 지표를 찾아서 그 지표로 신입생을 선발하게 된다. 만약 그 지표가 논술점수(측정A)라면 논술점수가 높은 학생을 선발한다.

정리하면 구성개념(출중한 학생), 측정B(졸업시 평점), 측정A(논술점수)가 된다. 이때 측정B가 발생하는 시점에 따라 동시타당성과 예측타당성으로 구분된다. 측정A와 측정B가 같은 시점이라면 동시타당성이 된다. 예를들어 브랜드 구매행위 예측에 타당성 높은 방법과(측정B) 새로운 방법(측정A)를 동시에 측정 후 상관관계를 비교하여 관계가 높다면 동시타당성이 큰 것이 된다.

앞의 신입생 예시처럼 측정A가 미래에 벌어질 측정B와 상관관계를 비교하는 경우는 예측타당성이라고 한다.

EX) 대학에서 입학생 선발시 우수학생이 될 입학생을 선정하려고 함. 우수학생이라는 구성개념

측정위해 졸업 학점으로 평가. 졸업학점이 높은 학생과 그 학생들의 입학 때 여러 지표간의

 

내용 타당성

: 구성개념의 내용을 충분히 대표하는지 판단하는 것으로 주관적으로 판단하게 된다.

 

구성(개념)타당성

: 구성개념간 이론적 관계와 측정값들의 이론적 상관관계가 일치하는 정도로 측정하는 것이다.

구성개념1과 이를 측정한 측정A, 구성개념2와 이를 측정한 측정B에서 구성개념1과 구성개념2와의 이론적 관계가 측정A와 측정B의 상관관계와 연관이 있어야 한다.

구성타당성은 3가지가 있다.

- 집중(수렴) 타당성 : 하나의 구성개념을 측정할 때 여러 척도를 사용한다면 각 척도들의 측정값들 사이에 상관관계가

높아야 한다. 예를 들어 브랜드 충성도 측정을 위해 구매 횟수와 구매의사를 측정했다면 둘 사이의 상관관계가

높아야 한다.

- 판별 타당성 : 서로 상이한 구성개념을 측정한 값들 사이는 측정값끼리 상관관계가 낮아야 한다. 브랜드 다양성

지표와 브랜드 충성도 지표간 상관관계가 낮을수록 타당성이 높다.

- 법칙타당성 : 로 다르지만 관련이 있는 구성개념간의 관계와 측정값들 간의 관계가 서로 상관관계가 높아야 한다.

 

(2) 타당성 향상방안

- 구성개념과 변수를 명확히 이해해야 한다.

- 기존에 그 구성개념을 잘 대표한다고 알려진(타당성이 높다고) 측정법을 사용한다.

- 용어를 정확히 정의하여 응답자의 문항에 대한 오류가 없도록 한다.

- 여러 측정방법을 도입하여 수렴타당성을 높여간다. 상관관계가 낮은 측정법은 제거해 간다.

 

 

3. 신뢰성의 평가 방법과 향상방안을 설명하시오.

신뢰성을 평가하는 방법은 다음의 세가지이다.

(1) 신뢰성 평가 방식

반복측정을 한다

: 일정 시간 간격으로 두 번 측정하여 측정값 사이의 상관관계를 평가한다.(2~4주 간격)

시간이 소요되고 고비용이 발생하여 많이 사용되진 않는다. 주시험효과, 역사적 오염 문제 등이 발생할 수있다.

내적 일관성을 이용한다

: 구성개념을 다양한 변수로 측정할 때 측정 변수간 상관관계가 높을수록 내적 일관성이 커진다. 측정항목을 양분하여(반분법) 측정하고 양분된 그룹간의 상관관계를 계산하는데 양분하는 방법에 따라 여러 값이 나올 수 있다. 이를 극복하기 위하여 크롬바흐 알파를 활용한다.

이것은 모든 상관관계 값들의 평균으로 신뢰성 측정시 주로 사용하는 방법이다.

크론바흐의 알파는 0에서 1 사이 값을 가지며 클수록 신뢰성이 높다. 0.8~0.9면 바람직하다고 보고 0.6 이상이면 받아들인다. 알파값이작을 때는 상관관계가 낮은 항목을 찾아내어 제거함으로 신뢰성 높인다.

대안항목의 신뢰성

: 동일대상에 대하여 동등한 두가지 척도를 가지고 일정 시간 간격을 두고 측정하는 것이다. 주시험 효과를 방지하는데 동등한 척도 구하기가 어렵다.

 

(2) 신뢰성 향상방안

- 구성개념을 바르게 이해하여 이론적으로 일관성 있는 척도를 개발한다.

- 신뢰성이 높다고 알려져 널리 쓰는 방법을 사용 후 신뢰성을 측정한다.

- 크론바흐 알파를 많이 사용한다.

일반적으로 측정항목수나 척도점을 늘리는 알파값이 커진다.(신뢰성이 높아진다.)

다른 항목과 상관관계가 적은 항목을 제거함으로 신뢰성을 높일 수 있다. 그러나 응답이 어렵고 오래걸릴 수 있다.

성격이 다른 변수를 사용한다면 내적 일관성을 기대하기 어렵다. 예를 들어 사회계층을 소득, 재산, 학력, 직업으로 할 경우 내적 일관성을 기대하기 어려워 알파값이 작게 나올 수 있다. 현실적으로 부적절 한 경우도 있다.

- 반복측정을 한다.

 

 

 

. 표본설계

1. 표본오차 비표본오차를 설명하시오.

오차는 크게 표본오차와 비표본오차가 있다.

(1) 표본오차

표본오차는 모집단 전체를 측정하지 않음으로 모집단과의 차이가 발생하는 오차이다. 전수조사를 할 경우 표본오차는 0이 되고 샘플링을 할 경우 표본오차가 높아진다. 전수조사를 할 때 많은 비용, 시간의 소요와 불량률 등 전수조사가 불가능할 수도 있고 비표본 오차가 있을 수 있기 때문에 전수조사가 최선의 선택이 아닐 수 있다.

 

(2) 비표본오차

비표본오차는 자료수집과정에서 나오는 오차이고 표본조사를 할 때는 낮지만 전수조사를 하면 높아질 수 있다. 비표본오차에는 응답오차와 무응답 오차가 있는데 무응답오차는 응답자가 응답을 거부함으로 나타나는 오차이다.

응답오차는 조사주체에 따라 나뉠 수 있다.

응답자오차 : 응답자가 불성실한 답변을 하거나 실수 등을 해서 발생하는 오차이다. 응답자 오류를 줄이려면 응답자가 해당 조사에 적합한 사람을 뽑아야 하기 때문에 조사주제에 적합한 표본프레임을 선정해야 하고 면접자 등의 교육을 철저히 시켜야 한다. 그리고 측정도구가 조사목적에 적합한지 여부도 확인해야 한다.

면접자 오차 : 인터뷰 실행하는 조사원의 실수 등의 오류로 성실응답을 할 수 있도록 설계와 교육이 잘 이루어 져야 한다.

조사자 오차 : 조사분석을 하는 사람의 코딩이나 분석 등의 오류이다. 코딩과 자료기입, 조사 자체에 대한 철저한 준비와 점검이 필요하다.

표본오차는 통계적으로 최소화 시킬 수 있기 때문에 대부분 표본조사를 실시한다.

 

 

2. 표본추출과정을 설명하시오.

표본추출은 다음과 같은 절차로 진행한다.

모집단의 확정 : 조사 대상 모집단을 확정하고 표본추출을 할지 전체 전수조사를 할지를 결정한다. 타당성에 따라

표본이나 전수조사를 선택한다. 표본이 과대하면 시간과 비용이 과대하게 되고 너무 적으면 대표성이 떨어진다.

표본프레임 결정 : 표본추출을 할 표본프레임을 선택한다. 전화번호부, 졸업앨범 등 모집단의 정보를 가지고 있는

프레임을 선택한다. (트루먼 듀이 대통령 선거 여론조사 사례)

표본추출방법 결정 : 표본을 어떻게 추출할지 결정하는 단계로 확률표본추출과 비확률표본추출이 있다.

표본크기의 결정 : 일반적으로 탐색적 조사는 표본수가 적으나 기술적 조사나 인과조사는 연구대상을 세분화 할

필요가 있기 때문에 충분히 커야 한다. 특히 신뢰성과 타당성을 높이기 위해서도 표본이 클 필요가 있다.

실행 : 표본추출을 실행한다.

 

 

3. 표본추출방법은 확률표본추출방법과 비확률 추출방법이 있다. 이를 설명하고 특징을 비교하시오.

확률 표본 추출 방법

: 모집단에서 표본으로 선택될 확률이 사전에 결정되는 방법으로 통계적 엄밀함을 가지고 선택하므로 모집단에 대해 대표성이 있으나 실제 추출하기가 쉽지 않다. 표본프레임을 확보하기 어려운 경우도 많다.

비확률표본추출방법

: 모집단에서 표본으로 선택될 확률이 사전에 결정되지 않는 방법으로 조사자의 의도가 개입되는 방식이다 조사대상의 통제가 어렵거나 비용, 시간 상 제약 때문에 선택하게 된다. 대표성이 낮다. 마케팅 조사는 엄격한 확률표본추출이 어려우므로 많이 사용된다.

 

확률표본추출방법

비확률표본추출방법

결론을 내릴 수 있다

탐색적 특성을 가지고 결론을 내리기 어렵다

표본오차가 상대적으로 크다

비표본오차가 상대적으로 크다

모집단이 비동질적일 때 더 효과적이다

모집단이 동질적일 때 사용 가능하다

시행이 복잡하고 어렵다

시행이 간단하고 편리하다

통계학적으로 정교하다

통계학적으로 한계가 있다

시간, 경비, 노력이 많이 든다

시간, 경비, 노력이 상대적으로 적게 든다

 

 

4. 확률표본추출방법을 설명하시오.

대표적인 확률표본추출방법은 4가지가 있다.

단순무작위 표본추출

: 가장 기초적인 확률표본추출방법이다. 모집단을 사전에 추출될 확률이 정해져 있고 확률이 동일하도록 추출하는 방법이다. 일반적으로 난수표나 난수발생 프로그램을 이용한다.

사전에 정해진 허용오차 범위가 있어 대표성이 뛰어나나 표본프레임이 있어야 하고 일련번호를 부여해야 하는 어려움이 있다. 가장 기초적인 표본추출방법이나 실행이 쉽지 않다.

층화표본추출

: 모집단이 이질적인 몇 개의 층으로 구분할 수 있을 경우 내부적으로는 동질하나 외부적으로는 이질적으로 구분되게 그룹을 나누어 그룹의 비율만큼 표본수를 정해서 그룹 내에서 단순무작위 추출을 하는 방법이다. 불비례적(할당)층화 표본추출도 있는데 이는 층(그룹)의 중요도에 따라 가중치를 부여하여 표본수를 할당하는 방법이다. 층의 구분이 명확치 않은 경우는 대표성이 떨어진다.

군집표본추출

: 층화와 반대로 모집단을 여러 개 동질적인 소그룹으로 구성할 수 있거나 각 그룹이 모집단을 충분히 대표할 수 있는 경우 사용할 수 있는 방법이다. 전체 군집을 다 하지 않고 무작위로 일부 그룹에서 표본을 추출하는 방법이다. 지역 특색이 없는 경우 지역을 기준으로 몇 개를 뽑아 조사하는 경우가 군집표본추출이다. 조사에 소요되는 시간이나 비용을 줄일 수 있으나 선출된 집단 내 표본들이 서로 동질적이면 선택된 소집단이 모집단을 충분히 대표한다고 할 수 없다.

체계적 표본추출

: 구성원에 어떤 순서가 있을 경우 일정한 순서 간격으로 표본을 추출하는 방법이다. 선거 출구조사가 대표적이다. 표본추출 확률만큼의 수‘k'번째 마다 추출하는 방법이다. 예를 들어 모집단 1,000명에서 20명을 추출할 경우 2%이므로 50명마다 한명씩 추출한다. 1~50 중의 한 수를 정하고 그 번호에 50을 더해가며 해당 번호의 표본을 선발한다. 순서를 부여할 수 있는 경우에만 가능하며 순서에 일정주기의 패턴이 있는 경우는 대표성이 떨어진다.

 

 

5. 비확률표본추출방법을 설명하시오.

대표적으로 4가지를 설명한다.

편의표본추출

: 조사자 편의대로 표본을 추출하는 방법이다. 조사하기 쉽고 접근이 쉬운 대상자를 조사하는 방식으로 시간, 비용, 난이도가 낮으나 대표성이 낮다. 모집단이 동질적이라고 가정하고 하는 방법이다. 대표성이 낮다.

판단표본추출

: 조사자가 조사에 적합하다고 판단한 구성원을 표본으로 추출하는 방법이다. 도메인 전문가가 판단하는 것으로 실제 대표성이 있을 수도 있으나 주관적 판단일 수도 있다.

할당표본추출

: 모집단을 특성에 따라 세분집단으로 구분하고 조사자가 주관적인 판단에 따라 대표성이 확보될 수 있도록 정해진 비율에 따라 세분집단에서 표본을 추출하는 방법이다. 층화표본추출과 유사하나 표본개수를 판단하여 무작위가 아니게 추출하는 것이 다르다. 비확률추출방법 중 정교하고 간편하여 널리 사용된다.

눈덩이표본추출

: 확률표본추출이나 판단에 의해 적절한 표본을 선정하여 조사하고 조사대상자들이 적절한 대상자를 추천하여 표본을 늘려가는 방법이다. 시작을 확률표본추출로 했어도 최종은 비확률이 된다.

조사대상자를 찾기 쉽지 않거나 대상자들끼리 폐쇄적 네트워크를 가질 때 사용할 수 있는 방법이다.

표본간 인구통계학적 유사성이 있을 수 있다. 확장되어가면서 모집단과 다른 특성을 갖는 표본이 될 수도 있어 대표성이 떨어질 수 있다.

 

 

6. 표본 크기의 결정방법을 설명하시오.

비확률표본추출의 크기는 조사자가 임의로 결정한다.

확률표본추출은 모집단의 분산, 신뢰수준, 허용오차에 따라 크기가 결정된다.

추정분산이 클수록, 신뢰수준이 높을수록, 허용오차가 작을수록 추출크기가 커야 한다.

V. 통계_평균비교, 교차분석

1. 기계조립 공장에서 조립순서 바꾸면 조립시간이 주는지 조사시 차이가 있는가?

 

 

2. 평균비교 차이검증을 설명하시오.

평균비교 차이검증은 t검정을 실시한다. 평균과의 차이가 있는지 검증하는 것이고 n30 이상이면 Z검정도 가능하다. 두 평균의 차이가 같다는 귀무가설이 몇 % 확률로 가능한지 검증하여 유의수준과 비교하여 확률이 희박하다면 채택하지 않고 연구가설을 채택한다. 차이가 있는지 보는 것이면 양측검정을 하고 크거나 작은 것을 검정하려면 단측검정을 실시한다.

 

3. 150명 임의조사, 소득, 정치성향 a=0.05. H0 정치성향과 소득 무관, H1 유관. 차이검정.

구분

고소득

중간

저소득

친여

45

30

15

90

친야

5

20

35

60

50

50

50

150

기대도수를 구해보자. 기대도수 = (행빈도의 합*열빈도의 합) / 총빈도의 합

구분

고소득

중간

저소득

친여

30

30

30

90

친야

20

20

20

60

50

50

50

150

카이제곱은 (45-30)^2/30 + (5-20)^2/20 + ... + (35-20)^2/20 = 37.5

(0.05일 때 x^2=5.99<37.5, 귀무가설 기각영역, , 차이가 있음)

 

 

4. 조사자 3명이 종업원을 A, B, C, D, E로 업무평가. 조사자에 따라 평가가 차이가 있는가(독립성)?

 

자유도

점근 유의확률

(양측검정)

피어슨 카이제곱

23.426

8

0.003

우도비

25.174

8

0.001

유효 케이스 수

324

 

 

카이제곱 값이 23.426, 유의수준 0.003이므로 0.05보다 작기 때문에 독립적이라는 가설 기각. 독립적이지 않다. 조사자에 따라 평가가 차이가 난다.

 

 

5. 교차분석을 설명하시오.

카이제곱. 두 범주형(명목) 변수간 연관성(독립성) 분석이다.

변수들간 범주 교차셀의 빈도(도수)교차표. 상호 독립성이나 관련성 정도 분석

자유도 : (행의 수 - 1) × (열의 수 - 1)

 

 

 

V. 통계_분산분석

1. 광고시안 4개 평가 점수가 차이가 있는가?

 

제곱합

자유도

평균제곱

F

유의확률

집단간

559.369

3

186.456

2.856

0.064

집단내

1240.631

19

65.296

 

 

합계

1800.000

22

 

 

 

집단간 F값이 2.856, 유의확률 0.06로 유의수준 0.05보다 크기 때문에 기각 안됨. 동일하다고 추정할 수 있다. 즉 시안에 따라 차이가 없음

 

 

2. 분산분석의 원리를 설명하시오.

차이검증을 할 때 집단이 3개 이상이고 분산이 같을 때 이용가능한 분석방법이다. 독립변수는 범주형, 종속변수는 수치형 척도이다. 인자의 수준을 하나의 집단으로 가정한다. 집단과 집단이 얼마나 떨어져 있는지를 비교한다.

 

분산분석의 가정은 다음과 같다.

- 관찰치는 서로 독립적 확률변수(무작위성)

- 각 모집단은 정규분포

- 각 실험요소의 분산은 동일(동분산성)

 

분산분석의 원리는 다음과 같다.

집단간 평균차가 B가 더 크다. BC는 집단간 평균은 같으나 집단내 분산이 더 적어 차이가 있다.

 

A

B

C

 

3.0

7.0

5.0

4.0

6.0

8.0

5.0

6.0

7.0

4.0

3.0

7.0

5.0

4.0

6.0

9.0

6.0

7.0

8.0

5.0

4.7

5.0

5.0

5.2

5.1

5.8

5.8

6.0

6.0

6.4

평균

5.0

6.0

5.0

7.0

5.0

6.0

분산

2.5

2.5

2.5

2.5

0.035

0.06

- AB에서 두 모집단간 평균차가 B가 더 큼. A에 비해 B가 두 평균값들의 분산(집단간)이 더 큼 (A=1, B=4)

- AC에서 두 모집단간 평균차가 C가 더 큼. 집단내 분산이 더 작음

- 표본 평균값 간의 차이가 클수록(집단간 분산이 클수록), 각 표본의 요소들간의 차이가 작을수록

(집단 내 분산이 작을수록) 모집단 평균값 간에 차이가 있을 가능성이 높음

 

 

3. 신제품 광고 3가지 대안 개발, 소비자들이 좋아하는 광고 선택. 남녀간 태도가 다르다 생각한다. 남녀 중 어느 집단이 어떤 광고를 더 좋아하는지 알고 싶음. 남녀 각각 9명을 6개 cell에 할당, 광고 세가 지 중 하나 보여줌. 광고태도를 0.0~5.0(간격 0.1) 척도 표시

성별

광고

평균

1

2

3

4.10

3.07

3.43

3.53

2.27

2.13

2.50

2.30

평균

3.18

2.60

2.97

2.92

+ 이원분산분석표

원천

제곱합(SS)

자유도

평균제곱(MS)

F

광고(A)

1.043

2

0.522

9.989

성별(B)

6.845

1

6.845

131.074

상호작용(A×B)

0.810

2

0.405

7.755

오차

0.627

12

0.052

 

합계

9.325

17

 

 

+ 광고대안들에 대한 태도는 성별에 따라 다른가?(a=0.05)

상호작용항목의 유의성 F=7.755>F(0.05, 2, 12)=3.89. , 유의하므로 성별에 따라 광고대안의 태도가 다름

 

 

4. 일원배치 분산분석과 이원배치 분산분석을 설명하시오.

일원배치 분산분석   독립변수가 1

       + F값 클수록 0에 가까움. 채택

 

이원배치 분산분석 : 2개 이상 독립변수가 하나의 종속변수에 미치는 효과

   처치효과

+ 주효과 분석 : 각 독립변수가 종속변수에게 미치는 영향. 고객만족에 미치는 영향. 지점/규모

          지점과 고객만족, 매장규모와 고객만족. 각자 보는 것

+ 상호작용효과 분석 : 한 독립변수가 다른 독립변수의 변화에 따라 종속변수에 미치는 영향

        지점의 매장규모와 고객만족 합쳐 분석

+ ex, 탄산음료. 당도(, ), 탄산(, )일 경우

(a), (b) 고단맛보다 저단맛일 때 호의적. 단맛이 태도에 미치는 영향은 탄산에 따라 달라지지

않음. 상호작용효과 0.

(a) 주효과 있음(고탄산 선호, 저단맛 선호), (b) 탄산은 주효과 미미

(c) 고탄산은 고단맛 일 때, 저탄산은 저단맛 일 때 선호. 단맛 정도가 태도에 미치는 영향은

탄산 정도에 따라 달라짐. 상호작용 효과 있음

(d) (c)와 같은 효과이나 강도가 더 강함

 

 

 

V. 통계_공분산, 상관분석

1. 변수들간의 관계를 분석하는 분석방법의 발달과정을 설명하시오.

회귀분석

: 특정변수가 다른 변수에 얼마나 영향을 주는지 회귀식을 구하는 과정이다.

 

 

 

V. 통계_회귀분석

1. 회귀분석을 설명하고 전제조건과 기본과정을 설명하시오.

(1) 정의

회귀분석이란 특정변수(독립변수)가 다른 변수(종속변수)에 얼마나 영향을 끼치는지 파악하는 것으로 회귀식이란 선형모델을 산출하는 것이다.

구분

종류

내용

독립변수의 수

단순회귀분석

1

다중회귀분석

2개이상

독립변수의 척도

일반회귀분석

등간척도, 비율척도

더미변수를 이용한 회귀분석

명목척도, 서열척도

독립변수와

종속변수와의 관계

선형회귀분석

선형

비선형회귀분석

비선형

(2) 전제조건

특정 독립변수값 갖는 종속변수는 정규분포 이루어야 하며, 분산이 동일해야 한다.

종속변수 값들은 서로 독립적이어야 한다.

독립변수가 여러개 일 경우 독립변수간 다중공선성(공차한계 VIF) 없어야 한다.

 

(3) 결정계수(R^2)

결정계수는 1에 가까울 수록 설명력이 높다.(바람직) 결정계수가 1에 가까울수록, 유의한F(p-value), t통계량(영향력) 클수록 영향력이 크다.

 

(4) 회귀분석의 기본가정

독립변수와 종속변수 간의 선형성을 가정한다.

오차의 정규성 가정 : 발생하는 오차들은 평균‘0’의 정규분포를 따른다

오차의 등분산 가정 : 오차들의 분산은 X의 모든 값에 걸쳐서 일정하다.

오차의 독립성 가정 : 오차들은 서로 독립적이다. y의 변화에 따라 오차들이 패턴이 생기면 안된다.

회귀식을 이용하여 Y값 추정시 회귀식을 발견한 X의 범위 내에서만 가능하다.

 

 

2. 독립변수 광고비, 종속변수 매출액간의 회귀식을 구하시오.

 

모형

R

R제곱

수정된 R제곱

추정값의 표분오차

1

0.845

0.715

0.686

21.21524

 

모형

제곱합

자유도

평균제곱

F

유의확률

1

선형회귀분석

11280.051

1

11280.051

25.062

0.001

 

잔차

4500.865

10

450.087

 

 

 

합계

15780.917

11

 

 

 

 

모형

비표준화 계수

표준화 계수

t

유의확률

B

표준오차

베타

1

(상수)

36.731

18.461

 

1.990

0.075

 

광고비

1.804

0.360

0.845

5.006

0.001

수정된 R^2값이 0.686으로 회귀식의 설명력이 높다.

(※ R^2값은 독립변수가 총 변동을 얼마나 줄여주는지. 독립변수가 종속변수를 얼마나 잘 설명하는지)

선형회귀분석 F값이 25.062, 유의확률이 0.001이므로 0.1%유의확률 안에서 유의하다.

(F값은 회귀선이 설정되어 오차를 줄인 정도. 즉 얼마나 적절하게 설정되었는지)

회귀식은 다음과 같고 광고비의 설명력은 베타가 0.845로 높다.

회귀식 = 36.731 + 1.804 × 광고비

 

 

3. 회귀선 추정원리란 무엇인가?

회귀선 추정원리는 적합도를 이용한다. 적합도란 관측값과 직선까지의 거리가 최소인 직선으로 최소자승법으로 찾는다.

최소자승법은 잔차제곱의 합이 최소값을 찾는다.

 

 

4. 더미변수를 활용한 다중회귀분석은 어떤 때 사용하는지 예시를 들어 설명하시오.

명목척도로 측정한 변수를 독립변수로 분석할 때 사용하는 방법이다. 더미변수의 수는 범주의 수 - 1’ 이다.

예를들어 종속변수가 매출액, 범주가 봄, 여름, 가을, 겨울의 4개면 더미변수는 3개이고 봄을 기준으로 다음과 같이 입력할 수 있다.

범주

더미변수 1 (D1)

더미변수 2 (D2)

더미변수 3 (D3)

여름

가을

겨울

0

1

0

0

0

0

1

0

0

0

0

1

B0(상수)=60, B1=40, B2=-10, B3=10, B4(광고비)=20일 경우

해석 : 봄이 기준, 여름은 봄에 비해 매출액이 40 많음, 가을은 10 적음, 광고비에 따라 매출액이 20씩 증가함

의미 : 더미변수를 이용하여 회귀분석함으로 명목척도로 측정된 독립변수의 영향을 제거하여 남은 독립변수들과 종속변수의 관계를 보다 정확하게 측정할 수 있다. 위의 문제에서 계절의 영향을 더미변수를 이용해 제거함으로써 광고비가 미치는 영향을 파악할 수 있다.

 

 

5. 독립변수가 광고비와 판매원수, 종속변수가 매출액일 때 회귀식을 구하시오.

모형

R

R제곱

수정된 R제곱

추정값의 표분오차

1

0.974

0.949

0.938

9.44109

 

모형

제곱합

자유도

평균제곱

F

유의확률

1

선형회귀분석

14978.862

2

7489.431

84.040

0.000

 

잔차

802.054

9

89.117

 

 

 

합계

15780.917

11

 

 

 

 

모형

비표준화 계수

표준화 계수

t

유의확률

B

표준오차

베타

1

(상수)

-3.618

10.330

 

-0.350

0.734

 

광고비

1.008

0.202

0.473

4.982

0.001

 

판매원수

16.887

2.621

0.611

6.442

0.000

수정된 R^20.938로 회귀선이 종속변수의 변동을 잘 설명한다.

F값이 84.040, 유의확률 0.000이므로 유의하다. 회귀식은 -3.618 + 1.008 × 광고비 + 16.887 × 판매원수

표준화계수 베타를 보면 광고비(0.473)보다 판매원수(0.611)가 영향력이 더 크다.

 

 

6. 다중공선성 문제란 무엇이고 해소방법은 무엇인가?

(1) 정의

다중공선성이란 다중회귀분석을 할 때 비유의적인 변수가 단순회귀분석시 유의적으로 나타나는 것이다. 그 독립변수가 다른 독립변수와의 높은 상관관게를 갖기 때문에 나타날 수 있다. 이런 것을 공선성이라고 하고 독립변수가 3개 이상이면 다중공선성이라고 한다.

예를 들어 아파트 가격을 종속변수로 할 때 방의 개수, 평수를 독립변수로 하여 다중회귀분석을 하면 평수와 방의 개수 사이의 상관관계 때문에 둘 중 하나가 비유의적으로 나타날 수 있다. 사실 여러 독립변수를 가지고 다중회귀분석을 하면 다중공선성이 0이 될 수 없다. 이런 성질을 이용한 것이 요인분석이다.

다중회귀분석을 할 때는 다중공선성을 따져야 한다. 단순히 회귀식을 찾아 종속변수 값을 예측만 하는 경우는 큰 문제가 없으나 독립변수의 영향력을 따지는 경우에는 유의해야 한다.

 

(2) 사례 분석

한 방송국 65세 이상 시청자 위한 TV프로그램 개발을 위해 25명 대상 설문조사를 실시했다. 종속변수는 일일평균TV시청시간, 독립변수는 배우자 동거여부, 연령, 교육기간의 3가지로 조사하였다.

모형

비표준화계수

표준화계수

t

유의확률

공선성통계량

B

표준오차

베타

공차

VIF

1

(상수)

1.495

2.637

 

0.567

0.577

 

 

동거여부

-1.176

0.316

-0.510

-3.726

0.001

0.951

1.052

연령

0.39

0.32

0.191

1.214

0.238

0.717

1.395

교육기간

-0.152

0.50

-0.476

-3.039

0.006

0.727

1.376

연령의 유의확률이 0.238로 비유의적으로 나타나지만 단순 회귀분석을 하면 0.079로 보다 유의적이 된다.

모형

비표준화계수

표준화계수

t

유의확률

B

표준오차

베타

1

(상수)

-3.014

2.919

 

-1.033

0.313

연령

0.073

0.039

0.358

1.840

0.079

단측검정일 경우 p-value=0.0395a=0.05에서 유의적이 된다.

세 변수간 상관관계를 보면 교육기간과 연령이 강한 부의 상관관계(-0.501)가 있어 이런 결과가 나타난 것으로 보인다.

 

교육기간

동거여부

연령

교육기간

Pearson상관

유의확률(양측)

N

1

 

25

0.079

0.709

25

-0.501

0.011

25

동거여부

Pearson상관

유의확률(양측)

N

0.079

0.709

25

1

 

25

0.141

0.503

25

연령

Pearson상관

유의확률(양측)

N

-0.501

0.011

25

0.141

0.503

25

1

 

25

 

(3) 다중공선성 확인방법

두 변수간 상관관계가 높지 않아도 다른 두 개 이상의 독립변수들과의 결합한 값과 해당 독립변수가 상관이 높은 경우에도 발생할 수 있다. 이것을 확인하기 위해서는 공차나 분산팽창요인(VIF)를 살펴봐야 한다.

 

공차

: 공차 = 1-R^2로 해당 변수가 독립적으로 종속변수를 설명하는 정도이다. R^2는 다른 독립변수들로 설명되는 정도다.

, 공차는 0~1의 값으로 숫자가 작을수록 다중공선성이 크다. 위의 예에서 연령도 공차가 0.7171에 가깝게 충분히 커서 큰 문제가 되지 않는다.

분산팽창요인(VIF)

: 분산팽창요인은 공차의 역수로 VIF1에 가까울수록 다중공선성이 낮다. 연령의 경우 VIF1.3951에 가까우므로 다중공선성 문제가 크지 않다.

 

(4) 다중공선성 해소방법

- 각 입력변수를 제거/추가하면서 회귀계수의 변동정도를 파악한다.

- 상관관계가 높은 독립변수 중 하나 혹은 일부를 제거한다

- 변수를 변형시키거나 새로운 관측치를 이용한다.

- 자료를 수집하는 현장의 상황을 보아 상관관계의 이유를 평가하여 해결한다.

 

 

7. 회귀분석시 발생할 수 있는 과적합문제를 설명하시오.

표본크기가 작을 경우 r^2또는 R^2가 큰 값으로 나타날 수 있다. , 적합도(타당성)가 높지 않은데도 단지 표본의 수가 적어서 해당 경우에만 적합해지는 과적합문제가 발생하게 된다. 다른 표본을 적용할 때 예측력이 떨어질 수 있다. 특히 독립변수의 수가 많은데 표본의 수가 적으면 더 잘 나타나게 된다. 표본수를 최소 독립변수의 10배 이상 수집해야 한다.

 

 

 

V. 통계_요인분석

1. 자동차 구매시 중요하다고 생각하는 10개 속성 7점 척도 25명 대상 조사. 요인분석을 하시오.

스크리도표를 보면 아이겐값이 4부터 급격히 감소폭이 줄어들고 1이상이 3개이므로 공통요인을 3개 선정한다.

성분

초기고유값

추출제곱합 적재값

회전 제곱합 적재값

전체

% 분산

% 누적

전체

% 분산

% 누적

전체

% 분산

% 누적

1

4.545

45.449

45.449

4.545

45.449

45.449

4.454

44.541

44.541

2

2.866

28.656

74.105

2.866

28.656

74.105

2.926

29.259

73.800

3

2.027

20.267

94.373

2.027

20.267

94.373

2.057

20.573

94.373

4

.332

3.322

97.694

 

 

 

 

 

 

5

.146

1.462

99.156

 

 

 

 

 

 

6

.046

.457

99.613

 

 

 

 

 

 

7

.039

.387

100.00

 

 

 

 

 

 

8

2.261E-16

2.26E-15

100.00

 

 

 

 

 

 

9

8.375E-17

8.375E-16

100.00

 

 

 

 

 

 

10

-2.42E-16

-2.42E-15

100.00

 

 

 

 

 

 

첫 번째 요인이 45%가량 설명하고 3개가 95% 정도 설명할 수 있어서 적합하다.

 

성분

1

2

3

성능

1.00

.005

.005

연비

.945

.032

-.154

주행성능

.929

.046

-.145

실내공간

.924

-.062

.112

안전성

.901

-.256

0.45

디자인

-.005

1.000

.001

내부 디자인

-.162

.965

.074

외관 스타일

.024

.960

-.096

가격

-.005

-.001

1.000

가격

-.064

-.018

.992

- 첫 번째 공통요인은 성능, 연비 등과 상관관계가 높음. 대체로 성능

- 두 번째 공통요인은 디자인, 스타일 등과 상관관계 높음. 디자인

- 세 번째 공통요인은 가격

 

 

2. 요인분석의 목적과 특징을 설명하시오.

(1) 요인분석의 목적

요인분석은 크게 두가지 목적으로 진행된다. 첫 번째는 분석 대상이 되는 변수들의 기저구조를 정의하는 목적이고 두 번째는 주 성분을 분석하여 다수의 변수를 축약하여 소수로 줄이는 역할을 한다. 마케팅조사에서는 두 번째 목적을 주로 사용하게 된다. 음식점 만족도 설문을 할 경우 대기시간, 청결, 음식 맛, 신선도를 변수로 조사시 대기시간과 청결이 유사하고 음식 맛과 신선도가 유사한 결과가 나왔다면 대기시간과 청결은 서비스’, 음식 맛과 신선도는 음식의 질이라는 요인으로 해석할 수 있다.

 

(2) 요인분석의 특징

모집단의 상태를 기술하는 기술통계기법으로 독립변수와 종속변수가 없다.

변수의 척도는 등간, 비율 척도이다.

표본은 최소 50, 보통 100개 이상이 바람직 하다.

상관관계가 높은 변수끼리 그룹핑 하는 것으로 변수간 상관관계가 낮으면 적합하지 않다. ±0.3 이하는 부적절하다.

 

 

3. 요인추출 개수를 결정하는 방법을 설명하시오.

아이겐값을 확인한다.

: 아이겐값이란 요인이 갖는 값으로 한 요인의 설명력을 뜻한다. 여기서 설명력이란 한 요인이 전체를 얼마나 설명할수 있는가를 나타내는 값이다. 변수가 5개라면 최대 5개까지 요인이 있을 수 있다. 이때 첫 번째 요인의 아이겐값이 2.5라면 2.5/5 , 전체의 50%를 설명한다는 뜻이다.

아이겐값을 구하는 방법은 요인적재값의 제곱의 합으로 구한다.

요인적재값은 각 변수와 요인간의 상관계수로 -1~1 사이의 값이다.

아이겐값이 1이상 값을 갖는 요인의 수 만큼 추출을 한다.

아이겐값이 1이란 뜻은 설명력이 원래 가진 비중(1/5)과 같다는 것으로 1보다 작으면 제 역할을 다 하지 못한다는 뜻이다.그래서 아이겐값이 1보다 큰 요인만 추출하는 것이다.

전체 요인들의 설명력

: 요인들의 누적 설명력이 충분히 커야 한다. 충분히 설명할 수 있는 요인까지 추출한다. (사회과학에선 60%내외)

스크리도표

: 아이겐값이 크게 감소하다가 완만해 지기 직전까지의 수 만큼 추출한다.

사전에 요인 수 결정

: 연구자가 사전에 몇 개의 요인이 적절하다는 것을 안다면 미리 결정하여 추출한다.

 

 

4. 요인분석의 절차를 설명하고 해석하는 방법을 설명하시오.

(1) 요인의 회전

요인행렬을 회전시킨다. 요인행렬이란 요인분석결과 산출되는 요인과 요인적재값을 나타내는 행렬이다.

추출된 요인행렬은 회전 전에는 어떤 변수가 어떤 요인과 높은 관계인지 모른다. 선형대수로 회전하여 진행하는데 직각회전과 사각회전 중 직각회전방식인 베리맥스 방식(column의 분산합계를 최대화) 많이 사용한다.

요인행렬의 column의 분산 합계를 최대화하여 열을 단순화 한다.(적재값을 -1, 1, 0에 가깝게 함)

 

(2) 요인행렬의 해석

요인적재값 확인

: 요인적재값은 -1 ~ +1 사이 값이고 ±0.5 이상일 때 실제적 유의성이 있다.

커뮤낼리티를 검토한다.

: 커뮤낼리티는 변수가 갖는 값으로(0~1 사이) 해당 변수가 추출된 요인들로 설명되는 정도를 뜻한다. 추출요인이 3개라면 그 3개 요인들이 해당 변수의 몇 %를 설명할 수 있느냐를 나타낸다. 총 변수가 5개라면 최대 요인은 5개이고 이때 커뮤낼리티는 1.0(100%)이 된다. 추출된 3개로 해당 변수를 어느정도까지 설명할 수 있느냐를 나타낸다.

0.5보다 큰 것이 바람직하다.

각 요인의 명칭 부여

: 각 요인에 적절한 명칭을 부여한다. 같은 요인에 적재된 변수간 공통적 특성이 없을 경우 불확정 요인으로 명칭을 붙이거나 이질적인 변수를 제거하고 다시 분석한다.

 

(3) 요인분석결과 사용

회귀, 판별분석 등 추가적으로 분석에 사용할 수 있다. 요인점수를 계산하여 독립변수로 하용한다.

 

 

 

V. 통계_판별분석

1. 70명 판매원의 사교성, 평점, 경력연수, 직무성적을 독립변수로 실적 상(집단2)하위(집단1) 구분하였다. 판별함수와 분별함수를 도출하고 판매원 1(사교성 23 평점 2.28, 경력연수 3, 직무성적57 경우)의 판별값을 구하시오.

[집단통계량]

 

실적집단

평균

표준편차

유효 N (목록별)

가중되지 않음

가중됨

집단 1

사교성

평점

경력

직무성적

44.2963

2.9517

5.5556

68.2593

9.87933

0.64832

1.78311

9.02387

27

27

27

27

27.000

27.000

27.000

27.000

집단 2

사교성

평점

경력

직무성적

51.8372

3.1318

6.4419

79.8605

12.15756

0.55756

1.63740

9.97039

43

43

43

43

43.000

43.000

43.000

43.000

전체

사교성

평점

경력

직무성적

48.9286

3.0623

6.1000

75.3857

11.84969

0.59616

1.73748

11.11507

70

70

70

70

70.000

70.000

70.000

70.000

[집단평균의 동일성에 대한 검정]

 

 

Wilks의 람다

F

자유도 1

자유도 2

유의확률

사교성

평점

경력

직무성적

0.903

0.978

0.937

0.738

7.333

1.525

4.537

24.123

1

1

1

1

68

68

68

68

0.009

0.221

0.037

0.000

 

[검정결과]

 

BoxM

 

16,978

F

근사법

자유도 1

자유도 2

유의확률

1.581

10

14257.016

0.105

(1) 집단통계량 해석

모든 변수의 평균이 집단 2가 집단 1보다 더 높다. 직무성적의 윌크스람다가 가장 적고 F값이 가장 크다. 또한 표준화정준판별함수계수도 가장 높게 나타난다. , 직무성적이 가장 판별력이 높은 중요한 변수이다.

유의확률이 0.105이므로 p>0.05이기 때문에 등분산을 가정할 수 있다.

 

표준화 정준 판별함수 계수

함수

1

사교성

평점

경력

직무성적

0.444

-0.329

0.284

0.879

구조행렬

함수

1

직무성적

사교성

경력

평점

0.859

0.474

0.373

0.216

정준판별함수

계수

함수

1

사교성

평점

경력

직무성적

(상수)

0.039

-0.554

0.168

0.091

-8.128

구조행렬을 보면 직무성적이 0.859, 사교성이 0.474로 유의적이다. 경력과 평점은 유의성이 낮다. , 판별력이 낮다.

(구조행렬은 판별함수와 변수의 상관관계로 ±0.4 이상 되어야 유의적이다.)

 

(2) 판별함수

 

(3) 분류함수

 

실적집단

집단 1

집단 2

사교성

평점

경력

직무성적

(상수)

0.233

2.581

0.848

0.623

-33.277

0.288

1.803

1.084

0.751

-44.462

새로운 대상을 분류하기 위해 피셔의 선형판별함수를 구해보면 위의 표에서 적용할 수 있다.

예를 들어 사교성 40, 평점 3, 경력 7, 직무성적 80일 경우 판별을 해보면 집단 2가 더 크므로 집단 2로 분류한다.

- 집단 1 = 0.233*40+2.581*3+0.848*7+0.628*80-33.277=39.562

- 집단 2 = 0.288*40+1.803*3+1.084*7+0.751*80-44.462=40.135

 

(4) hit ratio

 

실적집단

예측 소속집단

전체

집단 1

집단 2

원래값

빈도

집단 1

20

7

27

집단 2

11

32

43

%

집단 1

74.1

25.9

100.0

집단 2

25.6

74.4

100.0

분류결과 : 70명 중 52명이 정확하게 예측해서 hit ratio74.3%이다.

 

 

2. 판별분석의 개념을 설명하고 윌크스람다 함수를 설명하시오.

(1) 판별분석의 개념

개념

: 독립변수는 비율, 종속변수는 명목척도인 변수간의 관계 분석이다. 관측대상이 나타내는 변수를 이용하여 특정 대상이 어디에 속하는지 선형의 판별식을 구해 예측하는 것이다. 고객의 분류, 기업도산여부 등을 판별하는데 사용된다.

다른 분석과의 차이점

- 회귀분석 : 독립, 종속변수 모두 비율척도인 변수간의 관계 분석

- 분산분석 : 독립변수 명목, 종속변수 비율로 판별분석과 반대

- 요인분석, 군집분석 : 종속변수 개념 없음

사용목적

- 중요변수파악 : 어떤 변수가 어떤 방향으로 얼마나 판별점수에 영향을 미치는지 파악한다.

- 분류 : 새로운 대상의 독립변수 값으로 판별식 계산하여 어느 범주에 속하는지 예측한다.

 

(2) 판별분석 개요

집단 내 분산대비 집단 간 분산의 차이를 최대화 하는 독립변수들의 계수를 찾는 과정이다.

판별식

: 독립변수의 선형결합함수를 판별함수(판별식)이라 한다.

기본가정

- 독립변수들이 다변량 정규분포를 이룬다.

- 종속변수에 의해 범주화 되는 집단들의 분산-공분산행렬이 동일하다.

관측치의 개수

: 관측치 개수가 독립변수 수의 20배 이상, 종속변수의 각 범주 당 최소 20개 이상이 되어야 한다.

 

(3) 판별함수 점검

판별력 점검

: 윌크스 람다를 이용하여 점검한다. 0~1사이의 값을 갖고 검증으로 한다.

집단 간 분산이 집단 내 분산에 비해 클수록 0에 가까워진다. , 확실히 구분되어 판별력이 크다.

전반적 적합도 점검

: 다중회귀분석시 F검증으로 유의적 판명이 되어도 이 높아야 설명력 높다고 받아드리는 것과 유사하다.

hit ratio(R^2 역할) : 정확히 분류된 비율 (0~100%)

 

 

3. 24명 대상 A카드 멤버여부, 호텔식당 이용률, 스포츠시설 이용률, 연령, 월평균 소득 조사. 선형판별함수를 구하여서 식당이용률 1, 스포츠 3일 경우 어디에 속하는지 판별하시오.

(독립변수, 종속변수(집단변수, 카드 멤버여부) 지정. 단계입력방법 사용)

단계

진입된 변수

윌크스 람다

통계량

자유도1

자유도2

자유도3

정확한 F

통계량

자유도1

자유도2

유의확률

1

스포츠 시설 이용률

0.594

1

1

22.000

15.053

1

22.000

0.001

2

호텔식당 이용률

0.423

2

1

22.000

14.320

2

21.000

0.000

 

표준화 정준 판별함수 계수

함수

1

호텔식당 이용률

0.722

스포츠 시설 이용률

0.861

정준 판별함수 계수

함수

1

호텔식당 이용률

0.498

스포츠 시설 이용률

0.630

(상수)

-4.344

함수의 집단 중심점

멤버십

함수

1

없음

-1.118

있음

1.118

윌크스람다를 보면 호텔식당이용률이 0.423으로 0에 더 가까우므로 스포츠시설이용률보다 판별력이 크다.

표준화 정준 판별함수 계수를 보면 스포츠이용시설이 0.861로 더 판별력이 큰 것을 알 수 있다.

 

정준 판별함수 계수로 판별함수를 구하면 다음과 같다.

판별함수 : -4.344 + 0.498 × (호텔식당 이용률) + 0.630 × (스포츠시설 이용률)

위 판별함수에 각 데이터를 넣으면 분류점 기준으로 더 가까운 집단으로 판별한다.

 

id

멤버십

호텔식당이용률

스포츠시설이용률

연령

월평균소득

Dis_1

1

1.00

5.00

1.00

48.00

256.00

1.00

22

2.00

3.00

3.00

55.00

320.00

1.00

id 1id 2를 판별해 보면

id 1 = -4.344 + 0.498 × 5 + 0.630 × 1 = -1.224

id 22 = -4.344 + 0.498 × 3 + 0.630 × 3 = -0.964

둘 다 중앙점인 0보다 작아 멤버십 보유 안한 것으로 분류가 된다. id 1은 맞게 분류했으나 22는 잘못 분류했다.

 

피셔의 선형판별함수계수

멤버십

없음

있음

호텔식당 이용률

1.802

2.916

스포츠 시설 이용률

1.875

3.283

(상수)

-5.974

-15.689

새로운 대상의 판별을 위해 피셔의 선형판별함수로 분류함수를 만들어 적용해 보면 다음과 같다.

새로운 조사대상자 : 식당이용률 1, 스포츠 3

멤버십 없음 : -5.974 + 1.802 × 1 + 1.875 × 3 = 1.453

멤버십 있음 : -15.689 + 2.916 × 1 + 3.283 × 3 = -2.924

멤버십 없음의 판별값이 더 크기 때문에 멤버십 없음으로 판별한다.

 

hit ratio를 보면 적중률 91.7%로 상당히 정교하게 판별했다.

 

멤버십

멤버십 예측

합계

없음

있음

빈도수

없음

11

1

12

없음

1

11

12

%

없음

91.7

8.3

100.0

없음

8.3

91.7

100.0

 

 

 

V. 통계_군집분석

1. 군집분석이란 무엇인지 설명하고 종류를 설명하시오.

(1) 군집분석의 정의

유사한 속성을 가진 개체끼리 그룹핑 하는 탐색적 다변량 분석기법으로 거리측정, 유사성측정, 세분시장 분류에 사용된다. 군집분석은 기술통계분석으로 종속변수와 독립변수가 없다. 그리고 요인분석은 변수를 그룹화 하나 군집분석은 개체를 그룹화 한다.

대상간의 거리로 유사성을 판단하는 것으로 거리를 측정할 때는 유클리드 거리, 맨해튼 거리, 민코우스키 거리 등을 활용할 수 있다 .

 

(2) 군집분석의 목적 및 응용

목적 : 유형탐색, 데이터 탐색, 데이터 제거, 가설검증, 가설도출, 그룹에 기반한 예측(환자 예측 등)에 사용된다.

사용처 : 세분시장 구분, 기업유형 구분, 소비자 집단 구분 등에 사용된다.

 

(3) 특징

기술통계기법으로 정규성, 분산동일 등 가정이 필요없다.

대중공선성은 결과에 영향을 주게 된다.

 

(4) 군집분석의 종류

계층적 군집화

: 가까운 거리 대상들을 하나씩 그룹핑 하는 방법으로 순차적으로 다른 군집을 포함하는 큰 군집을 형성한다.

다른 그룹과 중복을 허용하지 않는 방법으로 자료의 크기가 크면 분석이 어렵다.

군집들간 거리 계산 방식에 따라 4가지로 구분된다.

- 단일결합법 : 최단거리 기준. 가까운 거리부터 순차대로 군집

- 완전결합법 : 최장거리 기준

- 평균결합법 : 군집 내 모든 구성원과 다른 군집 내 모든 구성원의 평균거리 기준

- 와드법 : 군집간 거리 계산시 구성원 분산합 기준. 각 조합의 분산합의 거리가 짧은 것부터 군집

비계층적 군집화

: 초기에 구하고자 하는 군집수를 정하고 설정된 군집의 중심에 가장 가까운 개체를 하나씩 포함하는 방법이다. 많은 자료를 빠르고 쉽게 군집할 수 있지만 초기값에 따라 결과가 달라진다. 비계층적 군집화는 k-means가 있다.

k는 군집 수로 다음과 같은 방법으로 분석한다.

- 하나의 군집씨앗 선택하고 사전 명시된 한정거리 이내 대상들의 씨앗 중심 군집화

- 다른 군집씨앗 선택 후 군집화

- 어떤 대상이 한 군집에 속했어도 새로운 씨앗에 가까우면 새 씨앗 군집으로 할당

 

 

 

V. 통계_다차원척도법

1. 다차원척도법을 설명하시오.

(1) 정의

다차원척도법(MDS)은 포지셔닝 분석을 통계적으로 하기 위해 쓰이는 방법론으로 하나의 알고리즘이 아니라 시각화 까지 나타내는 방법론이다. 지각도를 그려 경쟁상황과 이상점과의 차이를 비교해 볼 수 있도록 하는 방법이다.

개체간의 거리/차이 또는 유사성이 주어셨을 때 공간에 나타내어 전반적인 데이터 구조를 그릴 수 있도록 한다.

 

(2) 다차원척도법의 분류

구분

종류

내용

활용

목적

인지MDS

시장의 전반적인 경쟁구도가 어떤 기준으로 설정되는지를 파악하기 위한 방식

외부분석

포지셔닝맵에서 제품의 상대적 위치와 물리적 특성을 연결하여 해당 제품의 위치를 찾는 방법

재포지션을 위한 시사점 발견을 위해 사용한다.

선호MDS

포지셔닝 맵 상에 소비자들의 선호도를 시각화 하여 시장기회 포착 및 경쟁적 마케팅 전략 수립을 하는데 활용한다.

입력자료

유형

유사성데이터MDS

개체 간 유사성 자료를 이용하여 상표들의 위치 표시

선호도데이터MDS

상표별 선호도 자료를 이용하여 상표들의 위치와 소비자의 이상적 희망지점을 표현

교차분석표 이용

표차분석표를 이용, 개개의 위치를 시각적으로 표시

 

 

 

V. 통계_컨조인트 분석

1. 청소기를 런칭하기 전 컨조인트 분석을 실시하여 다음과 같은 결과가 나왔다. 결과를 설명하시오.

속성

속성설명

속성수준

디자인

청소기 디자인

A, B, C

브랜드

브랜드명

K2R, Glory, bissell

가격

청소기 가격

$11.99, $13.99, $15.99

성능보증

제품성능보증 여부

no, yes

환불보증

환불보증 여부

no, yes

총 대안의 수는 3 * 3 * 3 * 2 * 2 = 108개로 너무 많아 응답자가 비교가 불가능하다. 부분요인설계로 대안수를 16개로 줄였다. 각 속성별 대안을 경우의 수로 프로파일 카드를 작성하여 응답자에게 프로파일별 우선순위를 메기게 한다.

프로파일번호

디자인

브랜드

가격

성능보증

환불보증

1

3

3

2

1

1

2

3

2

1

2

2

3

2

1

1

2

1

~

~

16

2

1

2

1

2

id

pref1

pref2

~

pref15

pref16

1

4

6

11

17

2

6

16

1

4

3

11

9

2

13

~

~

~

~

10

8

13

~

11

9

위 예에서는 10명에게 수집. pref1은 가장 선호, pref16은 가장 비선호를 의미한다.

 

(1) 모형설명표

각 속성의 수준과 성격으로 연구자가 설정한다. 이산형은 명목이라는 뜻이고 선형(미만)이면 속성값이 커지면 효용이 작아지는 것이고, 선형(초과)는 속성값이 커지면 효용이 커지는 것을 의미한다.

 

 

수준수

순위 또는 점수에 관련

디자인

3

이산형

브랜드

3

이산형

가격

3

선형 (미만)

성능보증

2

선형 (초과)

환불보증

2

선형 (초과)

 

(2) 응답자 분석

 

유틸리티 추정

표준오차

디자인

A

0.000

1.661

B

-0.750

1.948

C

0.750

1.948

브랜드

K2R

1.667

1.661

Glory

2.417

1.948

Bissell

-4.083

1.948

가격

$11.99

-1.000

1.503

$13.99

-2.000

3.006

$15.99

-3.000

4.509

성능보증

no

0.250

2.492

yes

0.500

4.984

환불보증

no

-2.000

2.492

yes

-4.000

4.984

(상수)

 

12.458

6.063

항목

중요도

디자인

12.245

브랜드

53.061

가격

16.327

성능보증

2.041

환불보증

16.327

유틸리티는 응답자의 효용의 크기이다.

유틸리티 분석값을 보면 이산형은 대안 합계가 0, 선형(미만)(-), 선형(초과)(+) 값을 갖는다.

중요도값은 해당 속성의 유틸리티 범위를 전체 속성의 유틸리티 범위에서 차지하는 비중으로 응답자가 해당 속성을 얼마나 중요시 하는지를 나타낸다. 각 속성의 효용범위는 최대값과 최소값의 차이이다.

(EX, 브랜드의 범위 2.417-(-4.083)=6.500)

환불보증은 선형(초과)로 설정했으나 반대의 결과가 나타났다.

 

(3) 응답해석

브랜드를 가장 중요시한다. : 브랜드(53.1) > 환불보증(16.3) = 가격(16.3) > 디자인 > 성능보증

효용이 가장 높은 조합 : 디자인은 C, 브랜드는 Glory, 가격은 $11.99, 성능보증은 yes, 환불보증은 no

 

 

2. 컨조인트 분석을 설명하고 마케팅 활용방안을 제시하시오.

(1) 컨조인트 분석

제품 속성별 대안들이 소비자 선호정도로부터 중요도와 효용수준을 추정하여 가장 높은 효용을 찾는 방법이다. 여러 프로파일을 제시하고 우선순위를 답하여 분석한다.

 

(2) 활용방안

- 소비자들이 각 제품의 속성에 부여하는 중요도와 효용수준을 추정하고 가장 높은 효용을 주는 조합의 신제품을 개발한다.

- 속성수준이 다른 시장에서의 점유율을 예측할 수 있다.

- 선호도가 유사한 시장끼리 군집화 하여 세분화 할 수 있다. 대안의 선호도는 등간, 서열척도로 측정하고 등간은 메트릭, 서열은 비메트릭 컨조인트분석을 한다.

 

(3) 프로파일 구성

- 속성은 소비자들이 제품선택에 큰 영향을 미칠 수 있는 주요 속성으로 구성한다.

- 속성의 수와 수준이 많아지면 응답자 평가를 많이 해야 해서 좋지 않다.

- 속성수준의 범위가 현실적이고 넓은 것이 선호도 파악이 쉽다.

자동차가격을 1800, 2000, 2200만 보다는 1500, 3000, 5000만이 평가하기 쉽다.

728x90