글을 시작하며

부스트캠프 수업을 들으면서 확률 관련 용어에 대한 개념이 부족해 글을 작성했습니다.😥

수업에 열심히 따라가자..!

글의 순서는 다음과 같습니다

  1. 확률변수
  2. 이산형 확률변수와 이산형 확률 분포
  3. 연속형 확률변수와 연속형 확룔 분포

확률변수

표본공간과 확률변수 이야기 전에 확률실험과 표본공간에 대해서 이야기 하겠습니다.

  • 확률 실험 : 같은 조건 하에서 실험을 반복할 때, 그 결과가 예측 불가능한 실험
  • 표본 공간 : 확률 실험의 모든 가능한 결과들의 집합.

통계 이론에서 확률실험은 중요한 용어입니다. 확률실험은 예를 들어 주사위 던지기부터 시작해서, 모든 일상생활을 확률실험이라고 할 수 있습니다. 여기서 표본 공간은 확률 실험의 모든 가능한 결과들의 집합입니다.

그러면 본격적으로 표본공간과 확률변수를 이야기하겠습니다.

 

확률변수(Random Variable)

발생 가능한 모든 경우에 대해서 각각의 실숫값을 대입해주는 하나의 함수입니다.

표본공간의 각 원소 하나하나에 원하는 목적에 따라 그에 걸맞은 실수를 대입해주는 함수입니다.

확률변수는 변수의 척도(이산형, 연속형)에 따라 2가지로 나뉩니다.

 

이산형 확률변수와 연속형 확률변수

이산형 확률 변수(Discrete random variable)

  • 어떤 값을 가질 확률을 계산하는 확률변수
  • 확률 변수 X가 가질 수 있는 값이 유한이거나 셀 수 있는 경우
  • 예를 들어 동전 던지기나 주사위 던지기 등 계수 자료에 해당

연속형 확률변수(Continuous Random Variable)

  • 어떤 구간 내에 포함될 확률을 계산하는 확률변수
  • 데이터 공간에 정의된 확률변수의 밀도(density) 위에서의 적분을 통해 모델링.
  • 확률변수 x의 범위는 -무한부터 +무한까지.

 

지금까지 헷갈렸던 것은 확률변수와 확률 분포다.

이산형 확률변수와 연속형 확률변수는 모두 확률변수로 위에서 언급한 대로 변수의 척도에 따라서 나눈 것이다. 확률 변수는 위의 식들에서 모두 X이다.

 

확률 분포를 이제 설명하겠습니다.

 

확률 분포

  • 확률 변수가 특정한 값을 가질 확률을 나타내는 함수.
  • 예를 들어, 주사위를 던졌을 때 나오는 눈에 대한 확률변수가 있을 때, 그 변수의 확률분포는 이산형 확률 분포다.
  • 확률 변수가 어떤 종류의 값을 가지는가에 따라서 이산 확률 분포와 연속 확률 분포 중 하나에 속함.

 

이산형 확률 분포

  • 이산형 확률변수가 가지고 있는 확률의 구조를 의미.
  • 다른 말로는 확률질량함수(Probablity Maxx Function, pmf)라고 함.
  • 확률 질량 함수 : 이산 확률 변수에서 특정 값에 대한 확률을 나타내는 함수.
  • 대표적인 예로는 이산균등분포, 푸아송 분포, 베르누이 분포, 이항 분포 등이 있다.

동전으로 예를 들면 다음과 같다.

 

연속형 확률 분포

  • 확률 밀도 함수를 이용해 분포를 표현할 수있는 경우
  • 만일 모든 실수 x(즉, -무한부터 +무한까지)에 대해 음이 아닌 함수 f가 존재하여, 임의의 실수의 집합 B에 대해 다음을 만족하면 X를 만족하면., X를 연속형 확률변수라 함.
  • 대표적인 예료는 정규 분포, 연속균등분포, 카이제곱 분포 등이 있다.

 

그렇다면 확률 밀도 함수는 무엇인가?

 

확률 밀도 함수(probability density function)는 확률 변수의 분포를 나타내는 함수입니다.

확률 밀도 함수를 적분한 값이 확률로 확률 밀도 함수 자체가 확률이 아닙니다.

연속형 확률 변수가 어떤 특정 값을 가질 수 있는 확률이 0이라는 것도 정의에 따라서 풀면 다음과 같습니다.

여기서 delta x를 0으로 수렴하게 되므로 적분값이 0이 됩니다. 따라서 연속형 확률변수 X가 어떤 특정 값을 가질 수 있는 확률은 0입니다.

 

다시 한번 정의를 해보면 확률 밀도 함수 f(x)와 구간[a,b]에 대해서 확률 변수 X가 구간에 포함될 확률 P(a<=X<=b)는 아래와 같습니다.

 

왜 확률 질량 함수, 확률 밀도 함수라는 붙은걸까?

이산확률변수의 확률분포를 나타내는 것이 확률질량함수고, 연속확률변수의 확률을 결정하는 함수는 확률밀도함수라고 위에서 설명했었다. 그런데 여기서 왜 '질량'이란 단어와 '밀도'라는 단어가 쓰이게 되었을까?

 

우선 확률밀도함수 f(x)의 구간 x1에서 x2의 정적분을 생각해보자.

여기서 좌변은 [확률]이다. 그리고 우변에서 는 [구간길이]다. 그러면 의 단위는 [확률/구간길이]를 의미한다고 볼 수 있다. 왜냐하면 [확률/구간길이] x [구간길이] = [확률]이기 때문이다. 확률을 일종의 양(질량)으로 보고, 구간길이를 일종의 부피로 본다면, [확률/구간길이]는 [질량/부피]가 되므로 '밀도'를 의미하게 된다. 밀도는 단위 부피당 질량이기 때문이다. 따라서 는 '확률밀도함수'가 되는 것이다.

 

반면 이산확률변수 X의 경우 공식1과 같이 X의 값에 따라 각각 확률(질량)을 나타낼 수 있으므로, 를 확률질량함수라고 부르는 것이다.

 

참고 사이트

 

확률질량함수와 확률밀도함수 (왜 질량과 밀도??)

확률질량함수 확률질량함수(probability mass function, PMF)는 이산확률변수의 확률분포를 나타내는 함수이다. 즉, 확률변수가 취할 수 있는 값이 유한개이거나 자연수와 같이 셀 수 있는 이산확률변

bskyvision.com

 

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

 

 

Story 7.1 [연속형] 연속형확률변수

이 전 포스트까진 이산형 확률변수의 개념, 이산형 확률분포의 평균과 분산의 정의, 이산형 확률분포의 종...

blog.naver.com

 

 

확률 분포 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전.

ko.wikipedia.org

 

+ Recent posts