상관분석, 회귀분석, 선형회귀

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

Herald-Lab

상관분석, 회귀분석, 선형회귀 본문

Artificial Intelligence

상관분석, 회귀분석, 선형회귀

herald-lab 2021. 11. 6. 16:58

728x90

통계학(statistics): 데이터를 기반으로 불확실성(uncertainty) 속에서도 합리적인 의사결정을 돕는 수학의 한 분야

경험과학에서 발생할 수 있는 불확실성을 계량적으로 설명하기 위한 논리와 방법을 제공한다.
statistics는 자료를 수집, 분류, 분석, 표현하여 어떤 현상에서의 인과관계를 논리적으로 설명하고, 나아가 미래 상황까지 예측하게 해준다.

통계학은 크게,

① 기술통계학(descriptive statistics; 관찰한 자료를 수집·정리·요약하여 현재의 상황을 이해하고자 함)과

② 추리통계학(inferential statistics; 모집단에서 추출된 표본 자료를 분석하여 확률이론을 근거로 모집단의 특성을 추리하는 데 중점)로 나뉜다.

③ 분석통계학: 합리적 의사결정을 위해 통계적 방법론에 입각하여 분석함 ⇒ 상관분석, 회귀분석, 분산분석 등

로 구분할 수 있다.

상관분석과 회귀분석

Correlation Analysis and Regression Analysis

상관분석: 두 변량 사이의 선형 관계의 유무, 크기, 방향성 등 두 변량(또는 함수적으로 표현하면 변수) 간의 밀접도(상관관계)를 수치적으로 파악하기 위한 통계적 분석법

상관성(correlation): 두 변량 간의 상관 관계성 cf. 두 변량의 인과관계성이 아니다.
correlation analysis의 핵심은 상관계수를 구하는 것이다.

찰스 다윈의 사촌으로 유명한 잉글랜드의 생물학자 프랜시스 골턴(Sir Francis Galton, 1822-1911)은 통계학에서의 상관계수 개념을 최초로 제시했고, 이후 잉글랜드의 칼 피어슨(Karl Pearson, 1857-1936)은 현대 통계수리학을 정립하면서 상관분석을 이론적으로 완성했다.

상관계수는 독립변수와 종속변수의 관계 정도를 1과 -1 사이로 정량화한 것으로 독립변수와 종속변수가 함께 변화하는 정도를 두 변수가 따로 변하는 정도로 나눈 값이다.

독립변수에 의해 종속변수의 값이 항상 일정하게 변화하여 완전한 직선형 그래프를 그릴 때, 그 상관은 단일 인과성을 갖는다.
두 변수 간의 관계는 x-y 2차원 평면 그래프에서 산포도(variability, variation, dispersion) 또는 산점도로 형식으로 나타난다.

양의 산포도: x축의 독립변수가 증가할 때, y축의 종속변수가 비교적 일정하게 증가하는 산포도, 두 변량은 양의 상관관계를 갖는다고 할 수 있다.
음의 산포도: x축의 독립변수가 증가할 때, y축의 종속변수가 비교적 일정하게 감소하는 산포도, 두 변량은 음의 상관관계를 갖는다고 할 수 있다.

상관계수는 기호 r로 표현되며, -1에서 1사이의 값으로 나타나 상관성을 나타낸다.

음의 단일 인과관계: r=-1
음의 상관관계: -1<r<0
무상관관계: r=0, 두 변량 간의 correlation이 발견되지 않는다.
양의 상관관계: 0<r<+1
양의 단일 인과관계: r=+1

회귀분석: 변수 사이의 확률적 함수 관계를 탐색하는 수학적 방법론

regression은 Galton의 저서 <Family Likeness in Stature>(1886)에서 처음으로 사용됨

※ Galton은 자신의 사촌 형 Darwin의 저서인 <종의 기원>을 읽고 유전의 영향력에 심취하였다. 그리고 그는 개체(individuals)가 처한 환경보다 유전자가 개체 특성에 더 많은 영향을 준다고 확신하게 되었다. Galton은 이런 유전적 우월성 및 경향을 조사하기 위해, 주변인들의 키를 전수 조사했다. 그는 이후 놀라운 사실을 하나 발견했는데, 키가 큰 아버지는 그보다 키가 조금 작은 자식을 평균적으로 낳는 반면, 키가 작은 아버지는 다시 그보다 키가 좀 더 큰 자식을 낳는 것이었다. Galton은 이를 유전에서의 평균으로의 회귀(regression toward mean)이라고 명명했다.

Galton의 결론: 유전 가능한 특성(traits)은 장기적으로 평균으로 회귀하려 한다.

독립변수와 종속변수

독립변수(독립변량, independent variable, IV): 다른 변수에 영향을 주는 변수, 변량
종속변수(종속변량, dependent variable, DV): 다른 변수로부터 영향을 받는 변수로 통계를 통한 미래 예측을 하는 경우엔 현상의 예측 결과값과 같다.
매개변수(parameter, intervening variable): IV와 DV 간의 직접적인 관계가 없을 때, 둘 사이의 간접적 연결(매개)만을 맡는 변수

선형회귀

Linear Regression

2변량 단순회귀분석: 선형적인 1차식으로 변량 간의 관계성을 설명하는 것

기하학적으로 독립변수와 종속변수의 관계가 2차원에서는 직선형태로, 3차원에서는 평면형태로 나타난다.
독립변수는 1차항임
linear regression의 함수만족꼴

① f(x+y)=f(x)+f(y)

② f(Ax)=Af(x) (단, A는 상수이다.)

만약 독립변수에 x^n, cosx 등의 항이 존재하면 비선형화 된다.

Linear Regression의 개념

regression: dispertion이 선형관계의 평균값으로 돌아감을 의미
linearity: 두 변수 간의 관계가 하나의 직선 형태로 설명될 수 있는 관계성
linearity의 중심: 최소제곱법(least squares)을 만족하는 지점, 예측치와 관측치 차이의 제곱의 합이 최소가 되는 직선

Simple Linear Regression Model

정의: simple linear regression의 변량간 의존관계가 1차 함수로 나타나는 model

독립변수와 종속변수는 각각 1개이고, 차수는 1차이다.

simple linear regression은 두 개의 변수 x, y의 관계를 잘 나타낼 수 있는 linear model을 찾는 것이고, 이 모델을 찾기위해서는 위의 수식에서 a와 b를 구해야 한다.

Least Squares

최소제곱법은 실제 y의 값과 모델에서 얻은 추정값 a+b(x)_i 사이의 차이인 오차항 e를 이용한다.

모든 데이터 세트에 대한 e를 구하고 다시 그 오차를 제곱하여 모두 더한 값이 최소가 되는 a와 b를 구하면 회귀식을 얻게 된다.

변수 x와 y 간의 관계를 가장 잘 나타냄은 즉 (x, y)의 좌표로 나타낸 점들에 가장 가까운 직선을 찾는 것이다. ⇒ 모든 점들과의 거리의 합이 최소가 되는 직선을 찾는 것이 목표임

각 점들과의 직선 거리를 e_i라고 하고, 이 직선거리들의 제곱의 전체합 SSE(sum of squared errors of prediction, error sum of squares)를 최소화하는 방법이 최소제곱법이다.

n은 학습 데이터의 크기를 나타낸다.
특히, 위와 같이 계산된 b의 크기와 부호로 독립변수가 종속변수에 주는 상관성을 추정할 수 있다.

또한 오차의 제곱을 모두 더한 SSE를 다음과 같이 연산하여 a와 b를 구할 수도 있다.

SSE에 계산의 편의를 위한 상수 1/2을 곱하면, 새로운 목적함수 E를 설정할 수 있는데, 이를 활용하여 a와 b에 새로운 의미를 부여할 수 있다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Artificial Intelligence' 카테고리의 다른 글

【Artificial Intelligence / 인공지능학】 인공신경망의 기초 (0)	2021.11.06
인공지능에 관하여 (0)	2021.11.06

'Artificial Intelligence' Related Articles

Herald-Lab

상관분석, 회귀분석, 선형회귀 본문

상관분석, 회귀분석, 선형회귀

상관분석과 회귀분석

독립변수와 종속변수

선형회귀

Linear Regression의 개념

Simple Linear Regression Model

Least Squares

'Artificial Intelligence' 카테고리의 다른 글

티스토리툴바