본문 바로가기
  • 데이터야 놀자
데이터 분석 환경

선형 회귀분석, 로지스틱 회귀분석, 시계열분석 이해하기

by 데이터랑 2023. 4. 12.
728x90

 

주식데이터에 대한 다각도의 분석을 하려고 하니 결국 회귀분석까지 이해해야 하는 상황까지 왔네요. ^^

여기서는 이론적인 것들을 나름대로 이해해 보고 나중에 실제 분석모델을 적용해서 테스트를 해볼까 합니다.

 

회귀분석(regression analysis) 이란 ?  

종속 변수(y)에 영향을 주는 독립변수(x1, x2...)와의 관계를 분석하여 종속 변수의 값들을 예측하기 위하여 사용되는 통계학적 분석방법

 

 

회귀분석(Regression analysis) 종류

 

  • 단순 선형 회귀분석: 하나의 독립변수 종속변수 간의 관계 분석
  • 다중 선형 회귀분석: 둘 이상의 독립변수와 종속변수 간의 관계를 분석
  • 로지스틱 회귀분석: 이항 분류 문제를 해결하는 방법으로, 종속변수가 이항 변수인 경우에 사용
  • 다항 회귀분석: 독립변수와 종속변수 사이의 비선형 관계를 분석
  • 시계열 회귀분석: 시계열 데이터를 가지고 독립변수와 종속변수 사이의 관계를 분석

 

데이터 분석

 

 

 

Linear Regression 선형 회귀분석

 

선형 회귀 분석 모델은 일반적으로 최소제곱법(least squares method)을 사용하여, 독립 변수와 종속 변수 사이의 선형 관계를 모델링하게 되는데, 보통 y = ax + b와 같은 일차방정식 형태로 나타납니다.

 

공부시간과 시험점수와의 관계를 분석하고자 하는 경우,  선형관계의 상관계수를 구하고자 한다면

y = ax + b 형태의 직선으로 모형을 정하고

(  y는 성적, a는 공부 시간과 성적 간의 상관 계수, b는 y절편(intercept)으로 정의 )

 

이때, 오차 ε 이 존재하는데 이 오차가 작을수록 좋은 모형이므로

 

선형 회귀 모델은 데이터에 가장 잘 맞는 직선 = 오차가 가장 작은 직선 을 찾는 것이라고 이해했습니다.

 

즉, y= ax + b + ε 에서   , SSE (sum of squared errors) = Σ (ε)² =  Σ(yi - ŷi)²

 



 

 

Logistic Regression 로지스틱 회귀분석

 

로지스틱 회귀분석(Logistic Regression)은 종속 변수값을 확율값으로 하여 이항 분포(binomial distribution)로 분류하고자 할때 사용하는 분석 기법으로 

종속변수가 0~1 사이의 값을 가지며,  그래프 모양이 S 혹은 Sigma모양과 비슷하여 Sigmoid 함수라고도 합니다.

 

시그모이드 함수 그래프
시그모이드 함수 그래프

임의의 초기값에서 출발하여 기울기 방향으로 Learning Rate 씩 조금씩 움직여가면서 기울기가 "0"인 지점을 찾는 원리를 적용하는데 이때 Learning Rate가 너무 크면 목표를 지나쳐 갈 수도 있고 너무 작으면 목표에 도달하는데 너무 많은 시간이 소요될 수도 있습니다.

 

로지스틱 회귀분석은 이항 분류(classification) 문제에 대한 확율값 구할때 주로 사용된다고 하니

주식데이터 분석 시 상승 or 하락을 분류하는데 테스트해 보면 어떨까... 합니다.

 

 

참고 : Gradient Descent Algorithm

Gradient Descent Algorithm은 기계 학습과 최적화 알고리즘에서 가장 기본적인 알고리즘 중 하나입니다. 이 알고리즘은 함수의 최솟값을 찾기 위해 사용됩니다.

이미지 출처 : kaggle

 

 

 

시계열 분석  

 

시계열 회귀분석(Time Series Regression Analysis)은 시간의 흐름에 따라 변화하는 변수들 간의 관계를 분석하는 방법으로 종속변수는 시계열 데이터이어야 합니다.

 

시계열 분석 모델 종류 :

 

  • LSTM(Long Short-Term Memory) 모형: 딥러닝 알고리즘 중 하나로, 과거 정보를 잘 기억하면서 시계열 데이터를 예측하는 모델
  • ARIMA(Autoregressive Integrated Moving Average) 모형: 일반적인 시계열 데이터 예측에 많이 사용되며 과거의 데이터 값들이 현재의 데이터 값에 영향을 주는 Autoregressive와 차분(Differencing)을 통해 추세를 예측하는 Moving Average를 결합한 모델
  • SARIMA(Seasonal ARIMA) 모형: ARIMA 모형에서 계절적인 변동을 고려하여 데이터를 예측
  • VAR(Vector Autoregression) 모형: 다수의 시계열 데이터 간의 상관성을 고려하여 예측하는 모델입니다. 여러 개의 변수를 동시에 예측할 수 있으므로 다변량 시계열 모델
  • GARCH(Generalized Autoregressive Conditional Heteroscedasticity) 모형: 시계열 데이터의 변동성(Volatility)을 고려하여 예측하는 모델로 금융 분야에서 많이 사용

다음에는 시계열 분석에 대하여 좀더 자세하게  알아보려고 합니다.

728x90
728x90

댓글