1. 회귀분석이란 무엇인가?
회귀분석(regression analysis)은 한 개 이상의 독립변수(설명 변수)가 종속변수(결과 변수)에 어떤 영향을 미치는지를 분석하는 통계 기법입니다. 그중에서도 단순선형회귀(Simple Linear Regression)는 독립변수가 하나인 가장 기본적인 형태입니다. 단순선형회귀는 두 변수 간의 선형 관계를 “직선” 모형으로 설명하며, 이 직선을 통해 각 변수의 상관관계뿐 아니라 예측 가능한 경향성을 파악합니다. 여기에서는 회귀분석의 기본 개념과 통계적 해석, 그리고 실제 적용 시 주의사항과 해석 방법에 대해 살펴보겠습니다.
2. 단순선형회귀의 구조와 수식 이해
단순선형회귀에서는 두 변수 X(독립변수)와 Y(종속변수) 간의 선형 관계를 가정합니다. 이 관계를 다음과 같은 회귀식으로 표현합니다.
Y = β₀ + β₁X + ε
여기서 β₀는 절편(intercept), β₁은 기울기(slope), ε는 오차항(error term)입니다. 절편은 X=0일 때 Y의 예상값을 의미하며, 기울기는 X가 1 단위 증가할 때 Y가 평균적으로 β₁만큼 증가(또는 감소)함을 뜻합니다. 오차항 ε는 회귀선으로 설명되지 못하는 잔차(residual)를 의미하며, 분석 과정에서 독립적으로 분포하고 평균이 0이라는 가정이 포함됩니다.
단순선형회귀는 주어진 데이터 포인트들에 회귀선을 최소제곱법(ordinary least squares)으로 적합하여 β₀와 β₁ 값을 추정합니다. 최소제곱법은 잔차들의 제곱합을 최소화하는 방식으로, 데이터와 직선 간 오차를 최소한으로 줄이는 것이 목적입니다.
3. 회귀분석 결과의 해석 방법
3.1 기울기 β₁의 해석
β₁는 독립변수 X가 1단위 증가할 때 종속변수 Y가 평균적으로 얼마나 변하는지를 나타냅니다. 예를 들어 점심 식사 시간(X=식사 시간, 분)과 오후 업무 성과(Y=작업량, 건수) 사이의 회귀 분석에서 β₁이 0.5라면, 식사 시간이 1분 늘 때마다 평균적으로 0.5건의 업무량이 증가함을 의미합니다.
3.2 절편 β₀의 해석
β₀는 X가 0일 때의 예상 Y값입니다. 대부분의 경우 X=0이 의미 있는 값이 아닐 수 있어 해석에 주의가 필요합니다. 예를 들어 식사 시간이 0분이라는 가정은 현실과 큰 차이가 있을 수 있으므로, 해석은 X 범위 내에서 의미를 가지도록 해야 합니다.
3.3 결정계수 R²
결정계수(R²)는 회귀모형이 종속변수의 분산을 얼마나 설명하는지를 나타냅니다. 0에서 1 사이 값을 가지며, 값이 1에 가까울수록 모형이 데이터를 잘 설명한다는 뜻입니다. 예를 들어 R²=0.6이라면 회귀모형이 Y 분산의 60%를 설명한다는 의미입니다. 그러나 R²가 높다고 반드시 인과를 의미하지는 않으며, 데이터 패턴에 따라 왜곡될 수 있으므로 해석 시 주의가 필요합니다.
3.4 회귀계수의 유의성 검정
회귀분석에서는 기울기 β₁이 통계적으로 유의한지 검정합니다. t-검정 또는 산포된 p-value를 통해 β₁≠0인지를 검정하며, p-value가 유의수준(예: 0.05)보다 작으면 X가 Y에 통계적으로 유의미한 영향을 미친다고 해석합니다.
4. 가정 검토와 회귀 분석 시 주의사항
단순선형회귀는 다음 네 가지 주요 가정을 전제로 합니다. 첫째, 선형성(linearity): X와 Y 간 관계가 직선으로 표현될 수 있어야 합니다. 둘째, 독립성(independence): 오차 ε는 서로 독립적이어야 합니다. 셋째, 등분산성(homoscedasticity): 잔차 분포가 일정해야 합니다. 넷째, 정상성(normality): 잔차가 정규분포를 따라야 합니다.
위 가정이 충족되지 않으면 회귀계수나 p-value 해석이 왜곡될 수 있으므로, 잔차 도표(residual plot), Q-Q plot, 브레슈-파간 검정(Breusch-Pagan test) 등 진단적 도구를 활용하여 가정 충족 여부를 확인해야 합니다.
5. 단순선형회귀의 실제 적용 사례
5.1 경제 데이터 분석 예시
한 도시의 월평균 기온(X)과 아이스크림 판매량(Y) 간 관계를 분석한다고 가정합니다. 12개월 동안 기록된 기온과 판매량 데이터를 회귀 분석한 결과 β₁ = 15, β₀ = 200이며, R² = 0.75인 경우 기온이 1도 오를 때 아이스크림 판매량이 평균 15개 증가하며, 모형이 판매량 변동의 75%를 설명한다고 해석할 수 있습니다.
5.2 교육 연구 예시
학생들의 온라인 공부 시간(X)과 모의고사 점수(Y) 간 관계를 분석한 연구에서 얻어진 회귀 결과 β₁ = 0.8, β₀=50, R²=0.4라면 학생이 온라인으로 추가로 공부할 때마다 점수가 0.8점씩 오르며, 모형이 점수 변동의 40%를 설명한다고 해석합니다.
6. 단순선형회귀 그 이상의 고찰
단순선형회귀는 변수 간 관계를 파악하고 예측 모형을 만드는 데 유용하지만, 두 변수만으로 모든 것을 설명할 수 있는 것은 아닙니다. 여러 독립변수의 영향을 동시에 고려할 때에는 다중회귀분석, 비선형 회귀, 로지스틱 회귀, 결정 트리 같은 복합적 기법이 필요합니다.
특히 인과관계 분석이 목적이라면, 회귀분석은 통계적 상관관계를 나타낼 뿐이며 인과성을 증명하지는 않으므로 연구 설계와 추가 분석 기법을 함께 고려해야 합니다.
단순선형회귀분석은 두 변수 간 관계를 이해하고 예측하는 데 강력한 도구입니다. 회귀식, 회귀계수, 결정계수, 가정, 진단 방법과 한계까지 충분히 숙지하고 있다면, 실제 데이터를 통해 의미 있는 통찰을 얻을 수 있습니다.
이 글을 통해 회귀분석의 기본 개념과 해석 방법을 익히고, 실제 적용 시 참고할 수 있는 기술적 요소를 이해하셨길 바랍니다. 더 복잡한 데이터 분석이나 예측이 필요할 때, 다중회귀나 머신러닝 기반 기법으로 확장해 나가실 수 있기를 바랍니다.