상세 컨텐츠

본문 제목

통계 : 데이터란 무엇인가?

이정훈 (선형대수+수리통계+미적분)

by 1stnote 2020. 2. 19. 23:26

본문

이번 시간에는 통계 데이터에 대해서 공부해볼 생각입니다.

기본적으로 데이터는 일차데이터와 이차데이터로 나누어집니다.

 

일차데이터(primary data)

일차 데이터(primary data)는 연구조사자에 의하여 직접 수집된 데이터를 말합니다. 조사연구, 실험과 관측연구는 가장 널리 쓰이는 일차데이터 수집방법입니다.

 

이차데이터(secondary data)

이차데이터는 연구조사자의 문제와는 다른 목적으로 다른 사람에 의하여 수집된 데이터입니다. 이차데이터는 데이터를 수집한 사람이 연구조사자와 같은 기관에 있는 사람인가 아닌가에 따라 다시 내부 또는 외부 데이터로 나눕니다.

내부 소스

회계 또는 재무적 정보의 형태를 가지고 있는 것을 전통적으로 내부 이차 데이터라고 합니다.

또한, 연례 보고서, 각 부서별 보고서 등은 물론이고 어떤 것이든 기업 안에서 공개적으로 만들어진 기록된 정보는 모두 여기에 속한다고 볼 수 있습니다.

 

외부 소스

정부기관, 기타간행물등과 같은 회사 내부가 아닌 외부에서 생산된 이차데이터를 말한다.

 

 

보통 저희가 만나는 데이터들은 이차데이터에 속한다는 것을 알 수 있습니다. 그래서 이 글에서는 이차 데이터에 초점을 맞춰서 글을 진행하는것이 옳겠죠?

 

이차 데이터에 대한 데이터 웨어하우스와 데이터 마이닝에 대해서 소개하겠습니다.

 

데이터 웨어하우스(data warehouse)

데이터 사이의 관계나 패턴을 확인하는 세밀한 분석을 할 수 있도록, 기업 내부와 외부의 모든 데이터를 정리하여 저장하는 데이터 저장소이다.

 

데이터 마이닝(data mining)

분석적 기법을 적용하는 과정을 데이터 마이닝이라고 합니다.

기술통계, 교차제표, 회귀분석, 상관관계 등이 데이터 채집 도구로써 사용되는 상태입니다.

그 외 다양한 기법

-인자분석(factor analysis)

-군집분석(cluster analysis)

-판별분석(discriminant analysis)

-다차원척도법(multidimensional scaling)

 

이러한 데이터 마이닝은 통계학과 기계학습과의 관계는 다음과 같습니다.

 

통계학

 

 

통계학∩기계학습=데이터 마이닝 기계학습

 

그래서 기계학습에 대한 공부를 위해서 통계학의 공부는 필수적이라고 생각하시면 좋을듯 합니다.

 

이번시간에는 통계 데이터에 대해서 간단히 다루어봤습니다. 다음시간에는 표본과 표본을 통한 추정에 대해서 소개하도록 하겠습니다.

 

관련글 더보기

댓글 영역