본문 바로가기
  • 데이터야 놀자
데이터 분석 환경

시계열 분석을 위한 용어 정의 (1) - 표준편차, 분산, 표준 정규분포

by 데이터랑 2023. 2. 25.
728x90

 

 

이 블로그를 시작하게 된 이유 중의 하나는  올 한 해 금융데이터를 다각도로 분석해 보고

나의 인생 3막을 위한 새로운 도전을  준비하고자  하는 것도 있었다.

 

그동안 좀 다른 것에 관심이 생겨 차일피일 미루다가 오늘부터  다시 시작하려 한다.

 

데이터 분석 특히 시계열 분석을 하기 위하여 필요한 용어들을 먼저 이해할 필요가 있어 정리해 보았다.

 

하지만 용어부터가 문장으로 이해하기에는 너무 어렵고 파생적인 개념들이 계속 연결되어 있어

새로운 컴퓨터 언어 익히는 것보다 더 어려운 것 같다

수학적 이해를 바탕으로 머신러닝과 딥러닝까지 이어지는 과정을 습득해야 하고

데이터의 수집과 정제도 하려면 쉽지 않은 시간을 거쳐야 할 것 같다. 

 

 

시계열 분석을 위한 용어 정의

 

시계열 분석 이란?

 

time series analysis

시간의 흐름을 기준으로 수집된 또는 측정된 데이터들을 시계열 데이터라 하고

이런 시간적 과거의 데이터를 바탕으로 미래 데이터 값을 예측하기 위하여 분석하는 것을

시계열 분석이라고 이해한다.

 

산포도

 

데이터가 얼마나 그리고 어떻게 퍼져있나를 나타내는 통계학 지표로 범위, 분산, 표준편차, 사분범위등이 산포도를 나타내는 지표로 사용한다. 값이 작을수록 데이터가 평균에 조밀하게 집중되어 있고 값이 클수록 데이터가 넓게 퍼져 있음을 의미한다.

 

표준편차 standard deviation

 

자료의 관찰값들이 얼마나 흩어져 있는지 그 정도를 하나의 수치로 나타내는 방법

즉 산포도 지표 중 가장 많이 사용하는 것이 표준편차이다.

 

  • 표준편차 : 분산을 제곱근 한 것, SD 또는 stdev , 시그마 σ 라고 표현 하기도 함
  • 분산(variance) : 편차 제곱값들의 평균 
  • 편차(deviation) :  관측값에서 평균을 뺀 것

기호
모표준편차 기호

 

예를 들어, 만약 데이터의 표준편차값이 10이라고 한다면, 이 데이터의 1시그마 범위는 대략 10정도가 되고, 2시그마 범위는 대략 20이 된다라고 이해하면 시그마가 표준편차를 나타내는 단위하는 것을 이해하기 쉬울것 같다.

 

 

 

정규분포

 

  • 평균 μ에 대해 대칭
  • ( μ - σ , μ + σ )의 확률이 0.683이고  (μ - 2σ , μ + 2σ )의 확률은 0.954 (μ - 3σ , μ + 3σ )의 확율은 0.997 값을 가짐
  • 정규분포(normal distribution)는 가우시안 분포(Gaussian distribution)라고도 불림.

정규분포
정규분포

 

표준 정규분포

 

  • 표준정규분포는  평균이 0이고 표준편차가 1인 정규분포(standard normal distribution)
  • N(0,1)으로 표현

1. 표준정규분포를 사용하는 이유 : 

 

평균과 표준편차가 각각 다른 상황에서 서로 공정하게 비교하려면 표준화가 필요하다.

 

예를 들어 학교에서 시험점수가 A과목은 평균이 70점이고 표준편차가 10이었고,

B과목은 평균 50이고 표준편차가 5 인 상황에서

 A과목 79점, B과목 60점을 받았다면 인 경우 어떤 과목 시험을 더 잘 본 건지 비교하고자 할 때

각각의 점수에 대하여 표준화를 해야 한다.

 

표준화 공식

 

 

표준화 공식에 따라 A, B 점수를 표준화하면 A = 0.9, B = 2 가 나오니 일단 B과목이 더 좋은 점수라고 할 수 있다.

이것을 상위 몇 %에 속하는지를 계산해 보기 위하여 사용하는 것이 표준정규분포표이다.

 

 

2. 표준정규분포표 보는 법

 

 

세로축은 Z 값을 소수 첫째 자리까지 나타내었으며, 소수 둘째 자리는 가로축에 나타나 있다. 그리고 표 안에는 표준화 값 Z 에 해당하는 확률값이 적혀있다.

 

위에서 구한 표준화 값 Z가 각각 0.9 와 2 였는데 이것을 표준정규분포표로 확률을 구해보니

각각 18.4%, 2.2% 가 나온다.

 

 

표준정규 분포표
표준정규 분포표

 


수학공식이나 기호를 블로그에 표현하는 방법을 알 수 있는 유용한 사이트가 있네요.

 

https://rayc20.tistory.com/151

 

마크 다운(MarkDown)에서 사용하는 수식(TEX) 정리 | 티스토리 수식 입력, LaTex

티스토리에 마크다운으로 수식을 입력하려면 수식의 시작과 끝을 $$로 감싸주시면 됩니다. $$수식$$ 라고 입력하면 $$수식$$ 처럼 글이 한 줄을 모두 차지하게 됩니다. $수식$ 으로 입력하면 글 중

rayc20.tistory.com


 

728x90
728x90

댓글