반응형
선형회귀 분석이란?
- 어떤 변수들이 한 변수의 원인이 되는지(인과관계) 분석하는 방법z선형회귀 모델이란?
y = wx + b
- 입력변수 X 들의 선형결합을 통해 출력변수 Y를 표현한 모델
- X 변수와 Y변수 사이의 관계를 수치로 설명 → 미래 반응변수(Y) 값을 예측!!
선형회귀 모델 분류
'독립변수(X)의 수', '독립변수의 척도', '독립종속 변수의 관계' 등에 따라 여러가지 회귀분석 분류가 생기게 됩니다.
선형모델
- 선형회귀(최소제곱법, OLS, Ordinary Least Squares) : 예측과 훈련 세트에 있는 타겟 y 사이(잔차) 평균제곱오차(MSE)를 최소화하는 최적의 w와 b값 찾기
- 비용함수 : 손실함수, 모델의 오차를 정의하고 측정하기 위해 사용
- 잔차(residual, 훈련 오차) : 훈련 데이터의 관측값과 모델 예측값의 차이
- 예측오차(prediction error, 테스트 오차) : 테스트 데이터의 관측값과 모델 예측값의 차이
- 잔차 합을 최소화 전략을 수행하는 목표! 다시말해 잔차의 합(잔차의 제곱의 합)이 최소가 되는 직선을 구하는 것!
규제가 있는 선형회귀 모델의 필요성
규제란? 오버피팅 된 파라미터 값에 대해 패널티를 부여하는 것
- 과분산 모델에 규제를 하면 오버피팅을 감소시킬 수 있음
- 패널티를 추가하게 되면 규제가 없는 회귀 모델보다 계수의 절대값이 작아지게 되는 원리를 이용해 오버피팅을 방지할 수 있음
- 패널티를 가한다는 것은 편향을 높인다는 것을 의미, 규제가 없는 모델보다 훈련 데이터와의 적합도가 떨어지지만 전체적인 결과는 좋아짐
- 오버피팅된 모델은 지나친 노이즈를 반영할 수 있으므로 모델을 단순화하여 좀 더 일반화된 모델로 만들 필요가 있음
참고자료
https://www.youtube.com/watch?v=4Yo297HQyAk
https://www.youtube.com/watch?v=LZe94nm1lZg
https://sosoeasy.tistory.com/389
'자기개발 > 데이터분석' 카테고리의 다른 글
[머신러닝] k-NN(k-Nearest Neighbors) 알고리즘 학습 - 1)손글씨 분류 (0) | 2021.09.04 |
---|---|
[plotly] 시계열 시각화 X축 다루기 (0) | 2021.06.05 |
[pandas] DataFrame 인덱싱 index 종결 1탄 (0) | 2021.04.30 |
[GIS] 행정동 통계격자지도 데이터 수집 방법 (0) | 2021.04.27 |
[공모전] GTX 지하 대심도 철도사업 안전 아이디어 공모전 (0) | 2021.04.25 |