본문 바로가기
프로그래밍/AI

통계학(6) 공분산 행렬

by slowin 2024. 12. 2.

강사: 오영석강사님

분산 (Variance)

분산은 데이터가 평균으로부터 얼마나 흩어져 있는지를 나타내는 통계량입니다.

  1. 편차 (Deviation)
    • 정의: 각 데이터 값에서 평균을 뺀 값.
    • 수식: $$(x_i - \bar{x})$$
  2. 편차 제곱 (Squared Deviation)
    • 정의: 편차의 제곱.
    • 수식: $$(x_i - \bar{x})^2$$
  3. 편차 제곱합 (Sum of Squared Deviations)
    • 정의: 모든 편차 제곱의 합.
    • 수식: $$\sum (x_i - \bar{x})^2$$
  4. 분산 (Variance)
    • 정의: 편차 제곱합을 데이터 개수로 나눈 값.
    • 수식: $$\sigma^2 = \frac{\sum (x_i - \bar{x})^2}{n}$$
  5. 표준편차 (Standard Deviation)
    • 정의: 분산의 제곱근으로, 원래 데이터 단위로 변환.
    • 수식: $$\sigma = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n}}$$

표준편차 (Standard Deviation)

  • 정의: 수치가 평균에서 얼마나 벗어났는지 측정하는 통계량.
  • 수식: $$\sigma = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n}}$$

공분산 행렬 (Covariance Matrix)

공분산 (Covariance)

  • 정의: 두 변수 간의 관계를 나타내는 값.
  • 양의 공분산: 두 변수가 같은 방향으로 변화 (한 변수가 증가하면 다른 변수도 증가).
  • 음의 공분산: 두 변수가 반대 방향으로 변화 (한 변수가 증가하면 다른 변수는 감소).
  • 0에 가까운 공분산: 두 변수 간 관계가 거의 없음.
  • 수식: $$ \text{Cov}(X, Y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n - 1} $$

각 데이터에서 평균을 뺀값(편차), 변수 X의 각 값이 평균에서 얼마나 떨어져 있는지 측정.
$$(x_i - \bar{x})$$

각 데이터 y 에서 평균뺀 값 (편차), 변수 $Y$의 각 값이 평균에서 얼마나 떨어져 있는지 측정.
$$(y_i - \bar{y})$$

두 편차의 곱: 두 변수 간의 연관성을 계산
$$(x_i - \bar{x})(y_i - \bar{y})$$

모든 데이터에 대해 편차 곱을 합산:
$$\sum$$

데이터 개수 n에서 1을 뺀 값으로 나누어 표본 공분산 계산:
$$\frac{\cdots}{n-1}$$

공분산 행렬 정의

  • 여러 변수 간 공분산을 행렬로 표현.
  • 수식: $$\Sigma = \frac{1}{n - 1} (X - \mu)^\top (X - \mu)$$

공분산 행렬 계산 예제

데이터

데이터 벡터:
$$x_1 = [1, 2, 3], x_2 = [2, 2, 4], x_3 = [1, 1, 2], x_4 = [0, 3, 3]$$

Step 1: 데이터 행렬 작성

 

Step 2: 평균 벡터 계산

 

Step 3: 중심화 (Centering)

Step 4: 공분산 행렬 계산

Step 5: 최종 공분산 행렬

 

마무리

오영석 강사님 강의를 통해 분산과 표준편차를 알아보고 공분산 예제까지 알아보았다.