분류 예제

모델의 ROC 곡선은 혼동 행렬에서 가능한 모든 값 조합을 나타냅니다. ROC를 사용하여 전체 정확도가 가장 높거나 클래스별 정확도가 가장 높은 확률 임계값을 찾을 수 있습니다. 예를 들어 양수 클래스를 정확하게 예측하는 것이 중요하지만 음수 클래스에 대한 예측 오류에 대해서는 신경 쓰지 않는 경우 양수 클래스의 임계값을 낮출 수 있습니다. 이것은 긍정적 인 클래스에 찬성 모델을 편향 것입니다. 분류 작업은 클래스 할당이 알려진 데이터 집합으로 시작합니다. 예를 들어, 신용 위험을 예측하는 분류 모델은 기간 동안 많은 대출 신청자에 대한 관찰된 데이터를 기반으로 개발될 수 있습니다. 이 데이터는 과거 신용 등급 외에도 고용 기록, 주택 소유 또는 임대, 거주 연도, 투자 수 및 유형 등을 추적할 수 있습니다. 신용 등급은 대상이 되고 다른 속성은 예측 변수가 되며 각 고객의 데이터는 사례를 구성합니다. “트루” 분류.

이 예에서 작가는 목성으로 분류되어야한다고 주장한다. 이것은 분류의 한 유형입니다; 다른 하나는 사물 컬렉션을 범주 또는 유형으로 나눕니다. 분류 모델의 수가 있습니다. 분류 모델에는 로지스틱 회귀, 의사 결정 트리, 임의 포리스트, 그라데이션 증폭 트리, 다층 지각론, 1대rest 및 Naive Bayes가 포함됩니다. 텍스트 분류의 가장 일반적인 예는 감정 분석입니다: 텍스트가 양수인지 음수인지 중립인지 를 결정하는 자동화된 프로세스입니다. 기업들은 제품 분석, 브랜드 모니터링, 고객 지원, 시장 조사, 인력 분석 등과 같은 광범위한 애플리케이션에서 감성 분류기를 사용하고 있습니다. 엔트로피가 0이면 모든 대답은 동일합니다. 이 프로세스는 엔트로피가 0이 될 때까지 각 결정을 각 결정에 대한 하위 조건으로 나누어 반복합니다.

그래서 골프 예제의 다음 단계는 화창한 때 골프를 재생하는 결정을 보는 것입니다. 그런 다음 화창하고 바람이 부는 때 결정을 보십시오. 등등. 오픈 소스 도구는 훌륭하지만 대부분 기계 학습 에 대한 배경 지식이있는 사람들을 대상으로합니다.