통계학(statistics): 데이터를 기반으로 불확실성(uncertainty) 속에서도 합리적인 의사결정을 돕는 수학의 한 분야
통계학은 크게,
① 기술통계학(descriptive statistics; 관찰한 자료를 수집·정리·요약하여 현재의 상황을 이해하고자 함)과
② 추리통계학(inferential statistics; 모집단에서 추출된 표본 자료를 분석하여 확률이론을 근거로 모집단의 특성을 추리하는 데 중점)로 나뉜다.
③ 분석통계학: 합리적 의사결정을 위해 통계적 방법론에 입각하여 분석함 ⇒ 상관분석, 회귀분석, 분산분석 등
로 구분할 수 있다.
상관분석과 회귀분석
Correlation Analysis and Regression Analysis
상관분석: 두 변량 사이의 선형 관계의 유무, 크기, 방향성 등 두 변량(또는 함수적으로 표현하면 변수) 간의 밀접도(상관관계)를 수치적으로 파악하기 위한 통계적 분석법
찰스 다윈의 사촌으로 유명한 잉글랜드의 생물학자 프랜시스 골턴(Sir Francis Galton, 1822-1911)은 통계학에서의 상관계수 개념을 최초로 제시했고, 이후 잉글랜드의 칼 피어슨(Karl Pearson, 1857-1936)은 현대 통계수리학을 정립하면서 상관분석을 이론적으로 완성했다.
상관계수는 독립변수와 종속변수의 관계 정도를 1과 -1 사이로 정량화한 것으로 독립변수와 종속변수가 함께 변화하는 정도를 두 변수가 따로 변하는 정도로 나눈 값이다.
회귀분석: 변수 사이의 확률적 함수 관계를 탐색하는 수학적 방법론
※ Galton은 자신의 사촌 형 Darwin의 저서인 <종의 기원>을 읽고 유전의 영향력에 심취하였다. 그리고 그는 개체(individuals)가 처한 환경보다 유전자가 개체 특성에 더 많은 영향을 준다고 확신하게 되었다. Galton은 이런 유전적 우월성 및 경향을 조사하기 위해, 주변인들의 키를 전수 조사했다. 그는 이후 놀라운 사실을 하나 발견했는데, 키가 큰 아버지는 그보다 키가 조금 작은 자식을 평균적으로 낳는 반면, 키가 작은 아버지는 다시 그보다 키가 좀 더 큰 자식을 낳는 것이었다. Galton은 이를 유전에서의 평균으로의 회귀(regression toward mean)이라고 명명했다.
선형회귀
Linear Regression
2변량 단순회귀분석: 선형적인 1차식으로 변량 간의 관계성을 설명하는 것
① f(x+y)=f(x)+f(y)
② f(Ax)=Af(x) (단, A는 상수이다.)
만약 독립변수에 x^n, cosx 등의 항이 존재하면 비선형화 된다.
정의: simple linear regression의 변량간 의존관계가 1차 함수로 나타나는 model
독립변수와 종속변수는 각각 1개이고, 차수는 1차이다.
simple linear regression은 두 개의 변수 x, y의 관계를 잘 나타낼 수 있는 linear model을 찾는 것이고, 이 모델을 찾기위해서는 위의 수식에서 a와 b를 구해야 한다.
최소제곱법은 실제 y의 값과 모델에서 얻은 추정값 a+b(x)_i 사이의 차이인 오차항 e를 이용한다.
모든 데이터 세트에 대한 e를 구하고 다시 그 오차를 제곱하여 모두 더한 값이 최소가 되는 a와 b를 구하면 회귀식을 얻게 된다.
각 점들과의 직선 거리를 e_i라고 하고, 이 직선거리들의 제곱의 전체합 SSE(sum of squared errors of prediction, error sum of squares)를 최소화하는 방법이 최소제곱법이다.
또한 오차의 제곱을 모두 더한 SSE를 다음과 같이 연산하여 a와 b를 구할 수도 있다.
SSE에 계산의 편의를 위한 상수 1/2을 곱하면, 새로운 목적함수 E를 설정할 수 있는데, 이를 활용하여 a와 b에 새로운 의미를 부여할 수 있다.
【Artificial Intelligence / 인공지능학】 인공신경망의 기초 (0) | 2021.11.06 |
---|---|
인공지능에 관하여 (0) | 2021.11.06 |