회귀트리와 모델트리(Regression Tree and Model Tree)

Share

이번 글에서는 회귀트리와 모델 트리에 대해 알아본다. 이름에서 알 수 있다시피 의사결정 나무(Decision Tree)와 회귀식을 섞은 모델이다. 회귀 트리는 언제 필요할까? 바로 아래와 같은 데이터가 있을 때다.

왼쪽 데이터는 전체 데이터를 회귀식의 입력값으로 사용했을 때 얻을 수 있는 회귀식이다. 데이터가 선형관계이나 회귀식과 데이터 포인트간의 오차가 꽤 크기 때문에 잘 적합한 회귀식이라고 보긴 어렵다. 회귀 트리는 이런 문제를 해결하기 위해 도입되었다. 오른쪽 그림은 동일 데이터를 초록색/주황색으로 나눠서 각각의 회귀식을 적합한 결과이다.

좀 더 현실적인 문제로 예시를 들자면, 왼쪽 그림은 자동차 중량에 따른 연료 소비량이라고 할 때 오른쪽 그림은 휘발유차(초록색), 경유차(주황색)로 자동차의 종류를 좀 더 세분화화한 데이터이다. 이렇게 어떤 데이터를 나눴을 때 좀 더 정확한 선형 모델을 얻을 수 있다면 회귀 트리 또는 모델 트리를 적용해보면 좋다.

■ 회귀 트리(Regression Tree)와 모델 트리(Model Tree)

그렇다면 회귀 트리와 모델 트리의 차이점을 뭘까? 모델 트리는 간단히 말해 회귀 트리의 고급 버전이라고 생각하면 된다. 회귀 트리의 경우 잎 노드가 상수인데에 반해 모델 트리는 잎 노드에 선형 함수가 들어가게 된다. 이게 무슨 소린고 하면… (의사결정 나무에 대해 좀 더 알고 싶다면 다음 글을 확인해보세요!)

의사결정 나무의 결과값이 연속형 변수(Continuous variable- 보통 실수값)이면 회귀 트리라고 하고, 의사결정 나무의 결과값이 처음 소개한 그림과 같이 어떤 함수일 경우 모델 트리라고 한다. 그림으로 회귀 트리와 모델 트리의 차이점을 보여주면 다음과 같다.

즉, 왼쪽 그림처럼 잎노드가 상수다?? = 회귀 트리, 오른쪽 그림처럼 잎노드가 함수면?? = 모델 트리!

■ 회귀 트리와 의사나무 결정의 차이점

회귀 트리는 해석하기 쉽다는 의사나무 결정의 장점을 그대로 갖고 있다. 그렇다면 의사나무 결정과는 어떤 차이가 있을까? 근본적인 차이점은 의사결정 나무는 분류에 사용되고, 회귀 트리는 예측에 사용된다.

회귀 트리기준의사결정 나무
예측목적분류
잎노드의 변동(분산/표준편차) 최소화나무 나누는 기준최대한 동종의 클래스(homogeneous class)가 되도록 – 즉, 불순도가 낮도록
RMSE가지치기 기준일반화 오차의 추정값 기준

■ 모델 트리 만드는 방법

모델 트리는 나누어진 데이터셋에 국소 회귀를 적용하면 된다. (국소 회귀에 알고 싶으시다면 다음 글을 참고해주세요.) 나무를 나누는 기준은 표준편차로하고, 종료 기준 역시 표준 편차를 기준으로 하거나 서브셋으로 나눠진 인스턴스의 개수 기준으로도 할 수 있다. 좀 더 알아보고 싶다면 다음 링크로 확인해보길 바란다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다