티스토리 뷰
베이지안 머신러닝 개념
베이지안 모델링은 데이터가 알려주는 것과는 무관하게 통계적 모델이 어떻게 보여야 하는지에 대한 이전의 믿음을 부호화할 수 있게 해 줍니다. 이것은 모델을 자신 있게 학습할 데이터가 많지 않을 때 특히 유용합니다. 또한 모델링하는 결과에 대한 불확실성을 표현할 수 있게 해 줍니다. 간단한 예는 뒤집힌 동전의 모형을 배우는 것입니다. 어떤 동전의 모형은 뒤집혔을 때 동전이 앞면에 착지할 확률을 예측합니다. 우리는 그 확률을 모형의 모수라고 부릅니다. 이 모형을 배우는 한 가지 방법은 동전을 10번 뒤집고, 그 모형의 모수를 앞면이 된 비율로 설정하는 것입니다. 따라서 만약 앞면이 5개, 뒷면이 5개이면, 모수는 50%이고, 뒷면이 7개이면, 모수는 70%입니다. 이 방법의 한 가지 문제점은 제한된 데이터(단 10번의 플립)로 인해 결국 잘못된 매개변수를 얻게 될 가능성이 높다는 것입니다. 다행히도, 대부분의 동전은 50-50 정도라는 것을 인간으로서 경험을 통해 알 수 있습니다. 따라서 베이지안 모델링을 사용하여 이 사전 지식을 부호화할 수 있습니다. 특히 모수 가 있는 베타 분포를 사용할 수 있습니다. 그리고, 그건 기본적으로 우리가 전에 봤던 를 본 척하는 겁니다 그리고 머리와 꼬리는 각각 10번의 플립을 수행하기 전에 추정을 수행할 더 많은 데이터를 얻을 수 있도록 합니다. 이는 지정하기 쉽기 때문에 자주 사용되며, Beta 분포가 Bernouli 분포 이전의 Conjugate이기 때문에 수학적으로 모형 모수를 계산하는 데도 편리합니다. 또는 경험상 발견되는 동전의 거의 대부분(예를 들어 98%)이 공정한 동전이고, 나머지는 어떤 방식으로든 편향되어 있다고 지정할 수 있습니다. 이 이전 믿음을 지정한 후에는 이전 믿음과 새로 관측된 데이터(10번의 플립)가 모두 주어지면 모형의 모수에 대한 추정치를 나타낼 수 있습니다. 공정한 동전이 나올 확률이 98%라고 가정한 후자의 모형을 사용하여 "이 동전은 70-30 편향된 동전이다"라고 말하지 않고 앞면 7개와 뒷면 3개를 나타냈다면 이제 "공정한 동전이라고 98.4% 확신한다. 그렇지 않다면 70-30 편향에 가까운 어딘가에 있을 것이다."라고 말합니다. 우리는 이전의 믿음을 이용하여 더 나은 답을 얻었을 뿐만 아니라, 이제 우리는 그것이 하나의 답에 집착하기보다는 공정한 동전인가 하는 질문에 대답하는데 불확실성을 표현하고 있습니다.
베이지안 추론 시 주의 사항
10번만 뒤집어도 이전의 믿음은 많은 영향을 끼칩니다. 가장 극단적인 관측(10번의 앞면과 0번의 뒷면)조차도 동전이 여전히 공정할 확률은 34%입니다. 우리가 더 많은 관측치를 모을수록, 그 이전의 믿음은 늪에 빠지기 시작합니다. 70%의 관측된 앞면이 있지만 10번만 뒤집혔을 때, 우리는 여전히 그것이 공정한 동전이라고 확신하지만, 같은 비율이 100번 이상 뒤집혔을 때, 우리는 그것이 공정한 동전이 될 가능성이 매우 희박하고, 같은 비율이 1000번 이상 뒤집혔을 때, 우리는 기본적으로 그것이 공정한 동전이 아니라고 확신합니다. 이것이 위에서 굵은 글씨로 베이지안 추론이 상대적으로 데이터가 적을 때 가장 유용한 이유입니다. 베이지안 추론은 이러한 이전 모델을 인코딩할 수 있을 뿐만 아니라 데이터를 관찰한 후에 가능한 모델에 대한 분포를 표현할 수 있는 능력을 제공합니다. "공정한 코인이라고 98.4% 확신하며, 그렇지 않다면 70:30"의 바이어스 근처에 있을 수 있습니다.
머신러닝 모델에 적용 방법
표준 선형 회귀 모형에서는 정규화를 사용하여 대부분의 형상이 중요하지 않다는 믿음을 부호화할 수 있습니다. 베이지안 네트워크에서 모델의 일부에 해당하는 이전 실세계 지식이 있으면 직접 인코딩할 수 있습니다. 예를 들어, 의학적 진단을 위한 네트워크(예: 간 질환 진단을 위한 네트워크)에서 하나의 매개 변수가 특정 간 질환이 있는 비장의 확대 확률에 해당하고 출판된 저널 연구에서 해당 확률의 추정치를 생성한 경우 모델의 추정치를 해당 확률 쪽으로 밀어붙이는 사전을 인코딩할 수 있습니다. 특정 문제를 모델링하려고 할 때 관련 문제의 데이터가 많은 경우 베이지안 계층 모델링 또는 다른 형태의 베이지안 전이 학습을 사용하여 관련 문제를 기본적으로 사용하여 현재 문제에 대한 사전 믿음을 형성할 수 있습니다.
'데이터 분석' 카테고리의 다른 글
PCA의 개념과 사용 목적, 제한 사항 및 주의점 (0) | 2023.11.09 |
---|---|
상관분석과 선형회귀의 공통점과 차이점 (2) | 2023.11.09 |
p-value 개념, 가설 검정 접근법, 장단점 (3) | 2023.11.08 |
지도 학습과 비지도 학습의 개념, 차이점 (0) | 2023.11.08 |
기술통계 정의, 주요 목적, 주의점 (0) | 2023.11.07 |