자기개발/데이터분석

[머신러닝] 선형회귀 알고리즘 학습

코대장 2021. 10. 2. 19:15
반응형

선형회귀 분석이란?

- 어떤 변수들이 한 변수의 원인이 되는지(인과관계) 분석하는 방법z선형회귀 모델이란?

y = wx + b

- 입력변수 X 들의 선형결합을 통해 출력변수 Y를 표현한 모델

- X 변수와 Y변수 사이의 관계를 수치로 설명 → 미래 반응변수(Y) 값을 예측!!

선형회귀 모델 분류

'독립변수(X)의 수', '독립변수의 척도', '독립종속 변수의 관계' 등에 따라 여러가지 회귀분석 분류가 생기게 됩니다.

출처: 네이버 수학백과

선형모델

  • 선형회귀(최소제곱법, OLS, Ordinary Least Squares) : 예측과 훈련 세트에 있는 타겟 y 사이(잔차) 평균제곱오차(MSE)를 최소화하는 최적의 w와 b값 찾기
  • 비용함수 : 손실함수, 모델의 오차를 정의하고 측정하기 위해 사용
  • 잔차(residual, 훈련 오차) : 훈련 데이터의 관측값과 모델 예측값의 차이
  • 예측오차(prediction error, 테스트 오차) : 테스트 데이터의 관측값과 모델 예측값의 차이
  • 잔차 합을 최소화 전략을 수행하는 목표! 다시말해 잔차의 합(잔차의 제곱의 합)이 최소가 되는 직선을 구하는 것!

규제가 있는 선형회귀 모델의 필요성

규제란? 오버피팅 된 파라미터 값에 대해 패널티를 부여하는 것

  • 과분산 모델에 규제를 하면 오버피팅을 감소시킬 수 있음
  • 패널티를 추가하게 되면 규제가 없는 회귀 모델보다 계수의 절대값이 작아지게 되는 원리를 이용해 오버피팅을 방지할 수 있음
  • 패널티를 가한다는 것은 편향을 높인다는 것을 의미, 규제가 없는 모델보다 훈련 데이터와의 적합도가 떨어지지만 전체적인 결과는 좋아짐
  • 오버피팅된 모델은 지나친 노이즈를 반영할 수 있으므로 모델을 단순화하여 좀 더 일반화된 모델로 만들 필요가 있음

참고자료

https://www.youtube.com/watch?v=4Yo297HQyAk 

https://www.youtube.com/watch?v=LZe94nm1lZg 

https://sosoeasy.tistory.com/389