티스토리 뷰
지도 학습
지도 학습은 레이블이 지정된 데이터 세트에 다른 특징 또는 매개 변수가 부여되는 일종의 기계 학습입니다. 주어진 데이터 세트에서 일부 데이터 세트를 사용하여 모델을 훈련하고 일부 다른 부분을 테스트하여 새로운 데이터 또는 특징을 예측합니다. 지도 학습의 목표는 모델이 보이지 않는 입력 데이터의 출력 레이블을 정확하게 예측할 수 있는 매핑 함수를 학습하는 것입니다. 모델은 레이블이 지정된 예제에서 학습하고 지식을 일반화하여 보이지 않는 새로운 데이터에 대해 예측을 수행합니다. 예를 들어, 우리는 두 개의 특징 점수와 학습 시간을 가진 백만 명의 학생 데이터 세트를 가지고 있습니다. 따라서 평균적인 학생의 주어진 학습 시간을 기반으로 우리는 학생이 받은 점수를 예측해야 합니다. 지도 학습에는 두 가지 유형이 있습니다. 회귀와 분류입니다. 먼저, 회귀 문제에서는 연속 함수 내에서 결과를 예측하려고 하는데, 이는 출력 변수가 연속적인 값이 된다는 것을 의미합니다. 예를 들어, 데이터 집합에 여성의 나이와 몸무게 매개 변수가 주어지는데, 연속 함수에서는 나이나 몸무게를 예측할 수 있습니다. 분류 문제에서 예측은 이산적인 출력, 즉 0 & 1(때로는 그 이상)을 기반으로 발생합니다. 예를 들어, 내일 비가 올지 안 올지를 예측하는 모델이므로, 답은 0(아니요) 또는 1(예)입니다. 지도 학습에 사용되는 일반적인 알고리즘에는 선형 회귀, 의사 결정 트리, 지원 벡터 머신 및 신경망이 포함됩니다. 많은 사람들에게 더 분명해질 수 있기 때문에 Andrew Ng의 수업에서는 이 예를 들어 유방암 데이터 세트가 제공됩니다. 그래서 우리는 기본적으로 두 가지 유형의 유방암 데이터 세트를 제공했습니다. 양성은 위험하지 않고 무시할 수 있지만 악성은 위험하므로 의사와 상의해야 합니다. 종양 크기와 같은 특징을 고려할 때, 우리는 종양이 양성인지 악성인지 예측해야 합니다. 따라서 데이터에 양성 또는 악성이라는 레이블이 지정되어 있으며 일부 기능이 포함되어 있으므로 매개 변수가 주어지면 학습을 감독하는 것으로 간주되며 비슷한 유형의 출력을 예측해야 합니다.
비지도 학습
비지도 학습에서는 데이터 집합에 레이블이 지정되지 않고 주어진 특징이나 매개 변수가 없습니다. 따라서 이러한 데이터 집합을 사용하면 예측보다는 주어진 데이터 간의 차이만 찾을 수 있습니다. 데이터를 함께 클러스터링 하여 데이터의 구조를 보여줍니다. 비지도 학습의 목표는 명시적인 지침 없이 데이터에서 숨겨진 구조나 패턴을 발견하는 것입니다. 예를 들어, 비지도 학습은 서로 다른 은하를 그룹화할 수 있는 천문학 분야에서 사용됩니다. 또한 소셜 미디어, 교통 통제 등 다른 많은 곳에서도 사용됩니다. 비지도 학습 알고리즘은 데이터를 탐색하고 의미 있는 클러스터, 연관성 또는 표현을 식별합니다. 비지도 학습 기법의 예로는 k-평균과 같은 클러스터링 알고리즘, 계층적 클러스터링, 주성분 분석(PCA) 및 t-SNE(t-분산 확률적 이웃 임베딩)와 같은 차원 축소 기법 등이 있습니다. 비지도 학습은 데이터 탐색, 이상 탐지 및 추천 시스템과 같은 작업에 유용합니다.
두 학습의 차이점
지도 학습은 레이블이 지정된 데이터에 의존하여 예측 작업을 위한 모델을 훈련하는 반면, 비지도 학습은 특정 출력 레이블 없이 레이블이 지정되지 않은 데이터에서 패턴과 구조를 찾는 데 중점을 둡니다. 지도 학습에서 데이터셋에 레이블이 지정되어 있다는 것인데, 이는 데이터에 대해 주어진 특징(파라미터)이 있다는 것을 의미하며, 이는 이전의 주어진 특징(경험)을 기반으로 더 많은 특징을 예측할 수 있다는 것을 의미하는 반면, 비지도 학습에서는 제공된 데이터에 레이블이 지정되어 있지 않아 새로운 특징이나 파라미터를 예측할 수 없다는 것을 의미합니다. 두 접근 방식 모두 고유한 응용 프로그램을 가지고 있으며 기계 학습의 필수 구성 요소입니다.
'데이터 분석' 카테고리의 다른 글
PCA의 개념과 사용 목적, 제한 사항 및 주의점 (0) | 2023.11.09 |
---|---|
상관분석과 선형회귀의 공통점과 차이점 (2) | 2023.11.09 |
베이지안 머신러닝 개념, 추론 시 주의 사항, 적용 방법 (1) | 2023.11.08 |
p-value 개념, 가설 검정 접근법, 장단점 (3) | 2023.11.08 |
기술통계 정의, 주요 목적, 주의점 (0) | 2023.11.07 |