본문 바로가기
Data/머신러닝+딥러닝

[혼공머신] 4주차_혼자 공부하는 머신러닝+딥러닝_Chap05

by 호호호호히히히히 2025. 2. 8.
728x90
반응형

매주 숙제가 헷갈려서 추가해 봅니다.

 

한빛미디어 혼공학습단 신청해서 공부하니 어찌저찌 잘 따라가고 있습니다!

역시 나란사람.. 누가 최소한이라도 가둬두고 공부를 시켜야..


Chapter 05. 트리 알고리즘 | 화이트 와인을 찾아라!
  • 05-1 결정 트리
  • 05-2 교차 검증과 그리드 서치
  • 05-3 트리의 앙상블

학습 목표
  • 성능이 좋고 이해하기 쉬운 트리 알고리즘에 대해 배웁니다.
  • 알고리즘의 성능을 최대화하기 위한 하이퍼파라미터 튜닝을 실습합니다.
  • 여러 트리를 합쳐 일반화 성능을 높일 수 있는 앙상블 모델을 배웁니다.

05-1 결정 트리
  • 결정 트리, 불순도, 정보이득, 가지치기, 특성 중요도

 


교차 검증을 그림으로 설명하기

 

손으로 그려야 이해가 잘 되어서 손으로 그렸더니 영..쓸모가 없어서 프로그램으로 대체합니다.

 

교차 검증 (Cross Vaildation)이란 말 그대로 검증 세트를 분할하여 평가를 반복, 즉 교차적으로 검증한다는 의미입니다.

데이터를 여러 개의 부분(폴드)으로 나눈 후, 각 폴드를 순차적으로 검증 세트로 사용하여 모델을 평가하는 기법입니다.

이를 통해 전체 데이터셋이 훈련과 검증에 모두 활용되며, 모델 성능의 안정적인 평가가 가능합니다.

 

데이터의 특정 부분에 의존하는 영향을 최대한 줄여 일관된 성능을 내는지 확인하기 위함입니다.

예를들어,

유튜브 알고리즘이 교차 검증을 한다고 가정했을때,

내가 본 내용 n개를 기반으로 교차 검증을 진행 해 취향에 맞는 영상이 노출되도록 추출하는 방식입니다.

저는 동물 영상을 제일 많이봐서 그런지 동물영상이 수두룩 합니다.

K-폴드 교차검증이라고도 부르며 K는 교차검증 횟수 입니다. 아래는 3-폴드 교차검증의 예시입니다. 

 

3-폴드 교차 검증에서 각 폴드의 평가 점수가 다음과 같다면:

  • 첫 번째 폴드 평가 점수: 0.82
  • 두 번째 폴드 평가 점수: 0.84
  • 세 번째 폴드 평가 점수: 0.80

 

 

 

폴드가 늘어날 수록 데이터가 안정적이겠지만 아래와 같은 단점이 있겠습니다.

 

장점

  • 안정적인 평가 점수: 데이터의 모든 부분이 검증에 활용되므로, 모델 성능 평가가 보다 신뢰할 수 있습니다.
  • 효율적인 데이터 활용: 전체 데이터를 훈련에 사용할 수 있어, 특히 데이터가 부족한 상황에서 유리합니다.

단점

  • 높은 계산 비용: 모델을 여러 번 학습시키므로, 계산 자원과 시간이 많이 소요될 수 있습니다.
  • 복잡성 증가: 데이터 분할 및 평가 과정이 추가되기 때문에 구현이 다소 복잡할 수 있습니다.

 

Ch.05(05-3) 앙상블 모델 손코딩 코랩 화면 인증하기

혼공학습단으로 매주 진행하고 있는데 이번주 과제 자체는 쉬웠으나 전반적으로 배울 내용이 많아졌습니다.

1~4장을 다시한번 정리하고 가야겠습니다.

반응형

댓글