728x90
반응형
한빛미디어 혼공학습단 신청해서 공부하니 어찌저찌 잘 따라가고 있습니다!
역시 나란사람.. 누가 최소한이라도 가둬두고 공부를 시켜야..

Chapter 05. 트리 알고리즘 | 화이트 와인을 찾아라!
- 05-1 결정 트리
- 05-2 교차 검증과 그리드 서치
- 05-3 트리의 앙상블
학습 목표
- 성능이 좋고 이해하기 쉬운 트리 알고리즘에 대해 배웁니다.
- 알고리즘의 성능을 최대화하기 위한 하이퍼파라미터 튜닝을 실습합니다.
- 여러 트리를 합쳐 일반화 성능을 높일 수 있는 앙상블 모델을 배웁니다.
05-1 결정 트리
- 결정 트리, 불순도, 정보이득, 가지치기, 특성 중요도
교차 검증을 그림으로 설명하기
손으로 그려야 이해가 잘 되어서 손으로 그렸더니 영..쓸모가 없어서 프로그램으로 대체합니다.
교차 검증 (Cross Vaildation)이란 말 그대로 검증 세트를 분할하여 평가를 반복, 즉 교차적으로 검증한다는 의미입니다.
데이터를 여러 개의 부분(폴드)으로 나눈 후, 각 폴드를 순차적으로 검증 세트로 사용하여 모델을 평가하는 기법입니다.
이를 통해 전체 데이터셋이 훈련과 검증에 모두 활용되며, 모델 성능의 안정적인 평가가 가능합니다.
즉 데이터의 특정 부분에 의존하는 영향을 최대한 줄여 일관된 성능을 내는지 확인하기 위함입니다.
예를들어,
유튜브 알고리즘이 교차 검증을 한다고 가정했을때,
내가 본 내용 n개를 기반으로 교차 검증을 진행 해 취향에 맞는 영상이 노출되도록 추출하는 방식입니다.
저는 동물 영상을 제일 많이봐서 그런지 동물영상이 수두룩 합니다.

K-폴드 교차검증이라고도 부르며 K는 교차검증 횟수 입니다. 아래는 3-폴드 교차검증의 예시입니다.
3-폴드 교차 검증에서 각 폴드의 평가 점수가 다음과 같다면:
- 첫 번째 폴드 평가 점수: 0.82
- 두 번째 폴드 평가 점수: 0.84
- 세 번째 폴드 평가 점수: 0.80
폴드가 늘어날 수록 데이터가 안정적이겠지만 아래와 같은 단점이 있겠습니다.
장점
- 안정적인 평가 점수: 데이터의 모든 부분이 검증에 활용되므로, 모델 성능 평가가 보다 신뢰할 수 있습니다.
- 효율적인 데이터 활용: 전체 데이터를 훈련에 사용할 수 있어, 특히 데이터가 부족한 상황에서 유리합니다.
단점
- 높은 계산 비용: 모델을 여러 번 학습시키므로, 계산 자원과 시간이 많이 소요될 수 있습니다.
- 복잡성 증가: 데이터 분할 및 평가 과정이 추가되기 때문에 구현이 다소 복잡할 수 있습니다.
Ch.05(05-3) 앙상블 모델 손코딩 코랩 화면 인증하기
혼공학습단으로 매주 진행하고 있는데 이번주 과제 자체는 쉬웠으나 전반적으로 배울 내용이 많아졌습니다.
1~4장을 다시한번 정리하고 가야겠습니다.
반응형
'Data > 머신러닝+딥러닝' 카테고리의 다른 글
[혼공머신] 6주차_혼자 공부하는 머신러닝+딥러닝_Chap07 (0) | 2025.02.20 |
---|---|
[혼공머신] 5주차_혼자 공부하는 머신러닝+딥러닝_Chap06 (2) | 2025.02.16 |
[혼공머신] 3주차_혼자 공부하는 머신러닝+딥러닝_Chap04 (0) | 2025.02.02 |
[혼공머신] 2주차_혼자 공부하는 머신러닝+딥러닝_Chap03 (1) | 2025.01.19 |
[혼공머신] 1주차_혼자 공부하는 머신러닝+딥러닝 (0) | 2025.01.12 |
댓글