전체 글 311

[빅데이터분석기사] 4. 결과해석

1. 분석 모형 평가* 지도학습 분류모델 평가 지표   * 비지도학습 군집분석 평가 지표① 실루엣 계수 : 같은 군집에 속한 요소들의 평균거리와 함께 가장 가까운 이웃 군집까지의 거리도 함께고려하여 계산- a(i)는 군집 내 데이터 응집도, b(i)는 군집 간 분리도, 0.5보다 클 시 적절한 군집 모델, 0이면 군집으로 분리가의미 없음 s(i)=(𝑏(𝑖)−𝑎(𝑖))/max {𝑎(𝑖),𝑏(𝑖)}② Dunn Index : 군집 간 거리의 최소값을 분자, 군집 내 요소 간 거리의 최대값을 분모, 값이 클수록 좋음   2. 분석 모형 진단* 분석모형 진단① 정규성 가정 : 분석을 진행하기 전 데이터가 정규분포를 따르는지 검정② 중심극한정리 : 동일한 확률분포를 가진 독립확률변수 n개의 평균의 분..

[빅데이터분석기사] 3. 모델링

1. 분석 모형 설계* 분석모형 선정 프로세스- 문제요건 정의 – 데이터 수집·정리 – 데이터 전처리 – 분석 모형 선정 * 분석 모델링 설계와 검정-분석 목적에 기반한 가설검정 방법① 유의수준 결정 귀무가설과 대립가설 설정② 검정통계량 가설을 검정하기 위한 기준으로 사용하는 값의 설정③ 기각역 설정④ 검정통계량 계산- 검정통계량 ⑤ 통계적인 의사결정 가설검정양측검정• 귀무가설을 기각하는 영역이 양쪽에 있는 검정• 대립가설이 가 아니다 크거나 작다 인 경우 사용단측검정• 귀무가설을 기각하는 영역이 한쪽 끝에 있는 검정• 대립가설이 보다 작다 혹은 크다인 경우 사용   2. 분석 환경 구축* 데이터 분할- 학습 데이터 : 데이터를 학습하여 분석 모형을 만드는 데에 직접 사용되는 데이터- 평가 데이터 : 추..

[빅데이터분석기사] 2. 데이터 탐색

1. 데이터 전처리* 데이터 정제 과정- 수집 : 다양한 매체로부터 데이터 수집- 저장 : 원하는 장소에 저장- 변환 : 원하는 형태로 변환- 품질확인 : 활용가능성을 타진하기 위한 품질확인- 관리 : 사용이 원활하도록 관리 * 데이터 전처리의 주요 작업- 정제 : 결측 데이터, 이상치 파악 및 제거, 정합성 맞도록 교정하는 작업- 통합 : 여러 개의 데이터 베이스, 데이터 집합 또는 파일을 통합하는 작업- 축소 : 샘플링, 차원축소, 변수 선택 및 추출을 통해 차원을 줄이는 작업- 변환 : 데이터를 정규화, 이상화, 파생변수 등으로 변환하는 작업 * 데이터 정제 작업- 결측값 : 대체(중위수, 평균 등)- 노이즈 : 데이터 평활화 기법 사용. 구간화, 회귀, 군집화- 아웃라이어 : 기준선으로 대체(상한..

[빅데이터분석기사] 1. 빅데이터 분석기획

1. 빅데이터의 특징* 데이터 구분- 정량적 데이터(quantitative) : 주로 숫자로 이루어진 데이터 (2022년, 100km/h 등)- 정성적 데이터(qualitative) : 문자와 같은 텍스트로 구성, 함축적 의미 (철수가 시험에 합격하였다.) * 데이터 유형- 정형 데이터 : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터, 연산이 가능- 반정형 데이터 : 데이터의 형식과 구조가 비교적 유연, 스키마 정보를 데이터와 함께 제공하는 파일형식의 데이터,연산이 불가능 (XML, JSON, HTML 등)- 비정형 데이터 : 구조가 정해지지 않은 대부분의 데이터. 연산이 불가능. 텍스트, 음성, 영상 등(TEXT 등) * 지식창조 매커니즘공통화서로의 경험이나 인식을 공유하면서한차원 높은 암묵지로..

어느 나라에서 비즈니스를 하면 좋을까? (23.07.26)

"뭘 먹고살지?" "어떤 비즈니스를 해야 좋을까?" 라는 질문에서 시작해서 고민을 하다가 "다른 나라에서 비즈니스를 한다면 어디에서 하면 좋을까?"라는 생각까지 이르렀다. 다른 나라에서 비즈니스를 하고자 할 때는 여러 사회적인 것과 제도, 문화 등 많은 것들을 다 검토해야 하지만 그냥 갑자기 생각난 김에 심심풀이로 몇가지만 생각해 보기로 했다. 막연한 생각으로는 ① 경제규모가 너무 큰 곳 보다는 작은 곳이 기회가 많을 것 같고 ② 경제가 성장하면서 ③ 인구도 많고 ④ 가급적 국토의 크기도 큰 것이 자원을 갖고 있을 확률도 높을 것 같다는 생각이 들었다. 자료를 간단히 찾을 수 있는 방법은 네이버 검색을 했는데, 국가별 GDP 성장률, GDP 규모, 1인당 GDP는 2021년 자료로, 인구는 2023년자료..

케글연습 첫날 (22.08.23)

예전에 사 놓았던 케글 우승작으로 배우는 머신러닝 책을 오랜만에 다시 보게되었다. 전에 구매하고 조금 하다가 이래저래 못하다가 갑자기 생각이 나서 다시 해 보게 되었다. 예전 케글 내용이지만 오랜만에 접속해서 데이터를 내려 받고 하나 시작을 해 보았다. 처음 해 본 것은 스페인의 산탄데르 은행이 제시한 은행방문고객에게 제품을 추천해주는 내용의 모델을 만드는 프로젝트이다. 트레이닝데이터가 13만개, 변수가 48개이다. 전반적인 내용을 둘러보는 내용까지만 해 보았는데 오랜만에 해 보니 쉽진 않았다.  import pandas as pd import numpy as np trn = pd.read_csv('train_ver2.csv') C:\ProgramData\Anaconda3\lib\site-packages..

21대 총선 결과 다양한 통계(2020.04.16)

통계를 공부하다보니 이번 총선결과를 가지고 이것저것 분석을 해 봤다. (지역구) 네이버 자료를 기반으로 직접 적은 것이다 보니 조금씩 숫자가 다를지도 모르겠지만 전혀 정치적이지 않고 시사와 상관 없이 그냥 숫자장난을 해보려고 한다.  * 최다 선거인수(유권자수) 지역 : 관악갑 243,127명* 최소 선거인수 지역 : 부산남구을 114,836명 * 최다 투표수 지역 : 용인병 165,398명* 최소 투표수 지역 : 경기동두천연천 73,433명 * 최다 투표율 지역 : 경기안양동안을 75.8%* 최저 투표율 지역 : 경기시흥을 56.3% * 선거인수 대비 최고 득표율 당선자 : 경북 군위의성청송영덕 미래통합당 김희국 56.0%* 선거인수 대비 최저 득표율 당선자 : 인천 동구미추홀을 무소속 윤상현 24.8..

대한민국 인구통계(주민등록 인구현황 2022년 6월 현재) (22.07.29)

최근 샘과함께라는 프로그램에서 인구문제에 대한 방송을 보고 대한민국 인구트렌드라는 책을 읽어보았다. 인구가 고령화, 인구절벽이라는 이야기는 많이 들어왔던 사항이지만 새삼 인구가 경제력과 주요 고객층의 변화와 밀접한 관계가 있다는 것을 느끼게 되면서 우리나라 인구통계 자료가 궁금해졌다. 인구수는 국내 소비자의 수와 같고 소비자의 연령층이 변화하는 것과 밀접한 관계가 있을 수 밖에 없다. 국가통계포털에서 주민등록인구현황자료 중 최근 자료(2022년 6월 현재)를 기준으로 몇가지 분석을 해 보았다.더 좋은 인사이트를 얻기 위해서는 시계열분석도 해 보아야 하지만 너무 방대한 일이 될 것 같아서 현재 시점 분석만 먼저 해 보았다. 몇가지 인사이트를 적어보고자 한다. 1. 인구 수2022년 6월 현재 주민등록상 인..

지방선거를 보며 느낀점(마케팅 관점에서) (22.06.03)

5월 대선에 이어 6월 지방선거가 마무리 되었다.  결과를 두고 여러가지 이야기들이 많이 나오고 있는데 나는 마케팅 관점에서 느낀점을 써보고자 한다.  사실상 이번 지방선거는 대선의 결과에 많은 영향을 받은 선거라고 생각된다. 조사방법론에 보면 실험에 나타날 수 있는 오류 중 시험효과란 것이 있다. 앞에 진행한 실험(테스트, 이벤트 등 여기서는 선거)이 길지 않은 시간 내에 이루어질 경우 뒤의 실험(선거)에 영향을 미치는 것을 의미한다. 시험효과에는 주시험효과와 상호작용시험효과가 있다.  주시험효과는 앞의 측정한 것이 영향을 미쳐 뒤의 측정에 일관적으로 답하려는 경향이고 상호작용시험효과는 앞의 측정으로 관심도 등이 올라가 실험 자체에 영향을 미치는 것을 의미한다. 쉽게 생각하면 앞에 진행된 선거의 결과가..

20대 대선 결과 뉴스에서 다루지 않을만한 재미로 보는 통계분석(22.03.10)

말 많고 탈 많던 20대 대선이 끝났다. 정치이야기는 다른 언론이나 이런데서 많이 이야기 할테고 나는 통계이야기를 해볼까 한다. 지지율조사와 출구조사에 대한 많은 이야기들이 있었는데 그건 나중에 다룰 기회가 있으면 다뤄보고 오늘은 대선 결과중에서 뉴스에서 아루지 않을 만한 내용을 정리해 보고자 한다.(출처 : 중앙선거관리위원회 홈페이지, 개표결과 분석)(지역기준의 경우 해당 지역의 득표율 병기) (엑셀로 계산한 것인데 정확하지 않을 수 있으니 재미로만 확인해 주세요)  1. 지역 기준- 최다 선거인 ① 경기 화성시(378,451명) : 이재명(52.7%), 윤석열(43.9%) ② 서울 관악구(369,484명) : 이재명(50.3%), 윤석열(45.2%) ③ 경기 성남시분당구(365,203명) : 이재명(..