본문 바로가기

Offbeat Project

(587)
[빅데이터분석기사] 1. 빅데이터 분석기획 1. 빅데이터의 특징* 데이터 구분- 정량적 데이터(quantitative) : 주로 숫자로 이루어진 데이터 (2022년, 100km/h 등)- 정성적 데이터(qualitative) : 문자와 같은 텍스트로 구성, 함축적 의미 (철수가 시험에 합격하였다.) * 데이터 유형- 정형 데이터 : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터, 연산이 가능- 반정형 데이터 : 데이터의 형식과 구조가 비교적 유연, 스키마 정보를 데이터와 함께 제공하는 파일형식의 데이터,연산이 불가능 (XML, JSON, HTML 등)- 비정형 데이터 : 구조가 정해지지 않은 대부분의 데이터. 연산이 불가능. 텍스트, 음성, 영상 등(TEXT 등) * 지식창조 매커니즘공통화서로의 경험이나 인식을 공유하면서한차원 높은 암묵지로..
어느 나라에서 비즈니스를 하면 좋을까? (23.07.26) "뭘 먹고살지?" "어떤 비즈니스를 해야 좋을까?" 라는 질문에서 시작해서 고민을 하다가 "다른 나라에서 비즈니스를 한다면 어디에서 하면 좋을까?"라는 생각까지 이르렀다. 다른 나라에서 비즈니스를 하고자 할 때는 여러 사회적인 것과 제도, 문화 등 많은 것들을 다 검토해야 하지만 그냥 갑자기 생각난 김에 심심풀이로 몇가지만 생각해 보기로 했다. 막연한 생각으로는 ① 경제규모가 너무 큰 곳 보다는 작은 곳이 기회가 많을 것 같고 ② 경제가 성장하면서 ③ 인구도 많고 ④ 가급적 국토의 크기도 큰 것이 자원을 갖고 있을 확률도 높을 것 같다는 생각이 들었다. 자료를 간단히 찾을 수 있는 방법은 네이버 검색을 했는데, 국가별 GDP 성장률, GDP 규모, 1인당 GDP는 2021년 자료로, 인구는 2023년자료..
케글연습 첫날 (22.08.23) 예전에 사 놓았던 케글 우승작으로 배우는 머신러닝 책을 오랜만에 다시 보게되었다. 전에 구매하고 조금 하다가 이래저래 못하다가 갑자기 생각이 나서 다시 해 보게 되었다. 예전 케글 내용이지만 오랜만에 접속해서 데이터를 내려 받고 하나 시작을 해 보았다. 처음 해 본 것은 스페인의 산탄데르 은행이 제시한 은행방문고객에게 제품을 추천해주는 내용의 모델을 만드는 프로젝트이다. 트레이닝데이터가 13만개, 변수가 48개이다. 전반적인 내용을 둘러보는 내용까지만 해 보았는데 오랜만에 해 보니 쉽진 않았다.  import pandas as pd import numpy as np trn = pd.read_csv('train_ver2.csv') C:\ProgramData\Anaconda3\lib\site-packages..
21대 총선 결과 다양한 통계(2020.04.16) 통계를 공부하다보니 이번 총선결과를 가지고 이것저것 분석을 해 봤다. (지역구) 네이버 자료를 기반으로 직접 적은 것이다 보니 조금씩 숫자가 다를지도 모르겠지만 전혀 정치적이지 않고 시사와 상관 없이 그냥 숫자장난을 해보려고 한다.  * 최다 선거인수(유권자수) 지역 : 관악갑 243,127명* 최소 선거인수 지역 : 부산남구을 114,836명 * 최다 투표수 지역 : 용인병 165,398명* 최소 투표수 지역 : 경기동두천연천 73,433명 * 최다 투표율 지역 : 경기안양동안을 75.8%* 최저 투표율 지역 : 경기시흥을 56.3% * 선거인수 대비 최고 득표율 당선자 : 경북 군위의성청송영덕 미래통합당 김희국 56.0%* 선거인수 대비 최저 득표율 당선자 : 인천 동구미추홀을 무소속 윤상현 24.8..
대한민국 인구통계(주민등록 인구현황 2022년 6월 현재) (22.07.29) 최근 샘과함께라는 프로그램에서 인구문제에 대한 방송을 보고 대한민국 인구트렌드라는 책을 읽어보았다. 인구가 고령화, 인구절벽이라는 이야기는 많이 들어왔던 사항이지만 새삼 인구가 경제력과 주요 고객층의 변화와 밀접한 관계가 있다는 것을 느끼게 되면서 우리나라 인구통계 자료가 궁금해졌다. 인구수는 국내 소비자의 수와 같고 소비자의 연령층이 변화하는 것과 밀접한 관계가 있을 수 밖에 없다. 국가통계포털에서 주민등록인구현황자료 중 최근 자료(2022년 6월 현재)를 기준으로 몇가지 분석을 해 보았다.더 좋은 인사이트를 얻기 위해서는 시계열분석도 해 보아야 하지만 너무 방대한 일이 될 것 같아서 현재 시점 분석만 먼저 해 보았다. 몇가지 인사이트를 적어보고자 한다. 1. 인구 수2022년 6월 현재 주민등록상 인..
지방선거를 보며 느낀점(마케팅 관점에서) (22.06.03) 5월 대선에 이어 6월 지방선거가 마무리 되었다.  결과를 두고 여러가지 이야기들이 많이 나오고 있는데 나는 마케팅 관점에서 느낀점을 써보고자 한다.  사실상 이번 지방선거는 대선의 결과에 많은 영향을 받은 선거라고 생각된다. 조사방법론에 보면 실험에 나타날 수 있는 오류 중 시험효과란 것이 있다. 앞에 진행한 실험(테스트, 이벤트 등 여기서는 선거)이 길지 않은 시간 내에 이루어질 경우 뒤의 실험(선거)에 영향을 미치는 것을 의미한다. 시험효과에는 주시험효과와 상호작용시험효과가 있다.  주시험효과는 앞의 측정한 것이 영향을 미쳐 뒤의 측정에 일관적으로 답하려는 경향이고 상호작용시험효과는 앞의 측정으로 관심도 등이 올라가 실험 자체에 영향을 미치는 것을 의미한다. 쉽게 생각하면 앞에 진행된 선거의 결과가..
20대 대선 결과 뉴스에서 다루지 않을만한 재미로 보는 통계분석(22.03.10) 말 많고 탈 많던 20대 대선이 끝났다. 정치이야기는 다른 언론이나 이런데서 많이 이야기 할테고 나는 통계이야기를 해볼까 한다. 지지율조사와 출구조사에 대한 많은 이야기들이 있었는데 그건 나중에 다룰 기회가 있으면 다뤄보고 오늘은 대선 결과중에서 뉴스에서 아루지 않을 만한 내용을 정리해 보고자 한다.(출처 : 중앙선거관리위원회 홈페이지, 개표결과 분석)(지역기준의 경우 해당 지역의 득표율 병기) (엑셀로 계산한 것인데 정확하지 않을 수 있으니 재미로만 확인해 주세요)  1. 지역 기준- 최다 선거인 ① 경기 화성시(378,451명) : 이재명(52.7%), 윤석열(43.9%) ② 서울 관악구(369,484명) : 이재명(50.3%), 윤석열(45.2%) ③ 경기 성남시분당구(365,203명) : 이재명(..
[원가관리회계] II. 제품원가계산(원가회계) #.1 3. 제조기업의 원가의 흐름 (1) 계정별 제조원가의 흐름1) 원재료/직접노무원가/제조간접원가 계정① 원재료, 직접노무원가는 사용시 재공품 계정으로 분개② 제조간접원가는 다양한 항목으로 기말에 제조간업원가계정에 집계 후 재공품 게정으로 배부 2) 재공품 계정① 당기총제조원가 : 당기에 발생한 모든 제조원가- 직접재료 + 직접노무 + 제조간접원가② 당기제품제조원가 : 당기에 완성된 제품의 제조원가- 기초재공품원가 + 당기총제조원가 - 기말재공품원가 3) 제품계정① 매출원가 : 당기 중 판매된 제품의 원가- 실지재고조사법 적용시 계산법 : 기초제품재고액 + 당기제품제조원가 - 기말제품재고액4. 원가배분과 보조부문원가의 배분(1) 원가할당과 원가배분1) 원가할당① 원가할당 = 원가추적(직접원가) + 원가배분(..

728x90