[MDA] Multivariate Normal Distribution

2025. 4. 23. 23:52·Study/Multivariate Data Analysis

해당 카테고리에서는 Multivariate Data Analysis(다변량자료분석)에 관한 내용을 다루어보려 합니다.

 

이 카테고리에서 작성되는 내용은 복습을 위해 개인적으로 정리하는 글이기 때문에 내용이 정확하지 않을 수 있다는 점 미리 안내드립니다. (고쳐야 할 부분이 있을 경우 댓글로 알려주시면 감사하겠습니다.)

 

이번 포스팅에서는  Multivariate Normal Distribution (다변량 정규분포)에 대해 간단히 소개하겠습니다.

 

기초통계학에서 배우는 univariate normal distribution이 일변량 통계에서 가장 중요한 통계적 분포인 것처럼, 역시나 다변량 통계에서 가장 중요한 통계적 분포는 multivariate normal distribution이라고 할 수 있습니다.

 

그 이유는 무엇일까요?

 

1. 수학적 간단함

2. 일변량 분포에서와 마찬가지로, 많은 자연현상들이 정규분포로 설명되기 때문

3. 중심극한정리 (Central Limit Theorem)

 

다음과 같은 이유로 정규분포는 다변량 통계에서도 여전히 중요한 역할을 하는 분포입니다.

 

기존의 일변량 정규분포와, 다변량 정규분포를 살펴보겠습니다.

 

X가 일변량정규분포를 따른다면 그 pdf는 좌측과 같습니다. 시각화해보면 평균 mu를 중심으로 좌우 대칭이며, 해당 지점에서 가장 높은 값을 가지는 것을 확인할 수 있습니다.

 

다변량정규분포 또한 단순히 차원이 늘어난 것이기 때문에, 크게 복잡하지 않습니다. 다만 일변량 데이터가 아니므로 X는 벡터가 되며, 이의 평균인 mu 또한 벡터임을 강조하기 위해 밑에 물결 표시를 추가합니다. sigma는 variance-covariance matrix로, 추후 다루겠습니다. X가 p차원 다변량정규분포를 따른다는 것을 표시하기 위해 MVN 밑에 p를 추가합니다. pdf는 우측과 같고, 시각화를 위해 p=2일 때를 예시로 그려보았습니다. 

 

 

 

임의의 벡터 c와, MVN을 따르는 X에 대해서 (앞으로 다변량정규분포를 줄여서 MVN이라고 칭하겠습니다.), 이들의 선형결합인 Y에 대해 다음과 같은 성질이 성립합니다.

 

 

 

예시를 들면 다음과 같습니다.  c와 X의 선형결합으로 X1 - X2가 있을 때, 이는 일변량 정규분포를 따르며 그 평균과 분산은 다음과 같이 구할 수 있습니다.

 

 

MVN의 density function은 다음과 같았습니다. 여기서 밑줄 친 부분은 squared Mahalanobis distance라고 부릅니다.

기존에 우리가 잘 아는 distance metric으로는 Euclidean distance가 익숙할 것입니다. 이는 단순히 두 점 사이의 거리를 직선으로 계산하는 반면, Mahalanobis distance는 중간에 variance - covariance matrix의 역행렬이 들어가있는 것을 확인할 수 있습니다. 즉 Mahalanobis distance는 다변량 정규분포에서 X가 평균으로부터 얼마나 떨어져있는지를 공분산 구조를 고려하여 측정하는 것입니다.

 

 

Useful facts :

1. 임의의 상수값 c에 대해서 $(x-\mu)^\top \Sigma^{-1} (x-\mu) = c$를 만족하는 모든 x들은 같은 density 값을 가집니다.

 

2. $(x-\mu)^\top \Sigma^{-1} (x-\mu)$(제곱 마할라노비스 거리)의 값이 증가할수록, 평균벡터 $\mu$로부터 멀어지는 것이기 때문에 density function의 값은 감소하게 됩니다. 같은 이유로 x와 $\mu$ 사이의 거리가 멀어질수록, 제곱 마할라노비스 거리값은 커지게 됩니다.

 

3. X가 p차원 다변량정규분포를 따를 때, 변수 $d^2 = (x - \mu)^\top \Sigma^{-1} (x - \mu)$는 자유도 p의 chi-square 분포를 따릅니다.

 

4. 특정 관측값 $x_i$에 대해서 $d^2$ 값은 squared Mahalanobis distance라고 부르며,

$d_i^2 = (x_i - \bar{x})^\top \Sigma^{-1} (x_i - \bar{x})$로 계산됩니다.

 

 

 

이렇게 거리값이 카이제곱분포를 따르는 것을 이용하여, 나중에는 모평균벡터 $\mu$가 신뢰영역 안에 속하는지 검정하기도 합니다.

 

 

 

p차원 MVN에 대해서 다음 식을 만족하는 x들은 타원을 이룹니다. 이 때의 중심과 축은 위와 같습니다.

하단의 그림을 보면 더욱 쉽게 이해할 수 있습니다.

 

 

 

 

즉 우리는 variance - covariance matrix에서 eigen vector와 eigen value만 구하면 이 타원을 결정지을 수 있다는 뜻이 됩니다. 

 

다음 포스팅에는 이런 다변량정규분포를 확인하기 위한 기본적인 방법에 대해 알아보도록 하겠습니다.

 

감사합니다.

'Study > Multivariate Data Analysis' 카테고리의 다른 글

[MDA] Inferences About a Mean Vector  (0) 2025.05.07
[MDA] Multivariate Q-Q Plot  (0) 2025.04.24
'Study/Multivariate Data Analysis' 카테고리의 다른 글
  • [MDA] Inferences About a Mean Vector
  • [MDA] Multivariate Q-Q Plot
입질하는 펠리컨
입질하는 펠리컨
Time Series Analysis | Anomaly Detection | Domain Adaptation
  • 입질하는 펠리컨
    입질하는 펠리컨
    입질하는 펠리컨
  • 전체
    오늘
    어제
    • All (31)
      • Paper Review (6)
      • Study (14)
        • ML | DL (5)
        • Multivariate Data Analysis (3)
        • CS231n (6)
      • Certificate (4)
      • Diary (7)
  • 링크

    • GitHub
    • velog
  • hELLO· Designed By정상우.v4.10.3
입질하는 펠리컨
[MDA] Multivariate Normal Distribution
상단으로

티스토리툴바