🤖 인공지능의 두 갈래, 분류와 회귀: 개념과 차이를 알아보자!
인공지능(AI)과 머신러닝(Machine Learning)을 공부하다 보면 자주 접하게 되는 개념이 바로 **“분류(Classification)”**와 **“회귀(Regression)”**입니다. 이 두 개념은 예측 문제를 풀기 위한 AI 모델의 가장 기본적인 유형으로, 각각의 목적과 사용하는 방식이 분명히 다릅니다. 오늘은 이 두 가지가 정확히 무엇인지, 어떤 경우에 사용하는지, 그리고 회귀라는 용어가 왜 ‘회귀’인지까지 알아보겠습니다.
📌 1. AI에서 예측 문제란?
AI가 데이터를 바탕으로 무언가를 예측하려면, 우리가 예측하고자 하는 대상에 따라 예측 방식이 달라집니다. 예를 들어,
- 이메일이 스팸인지 아닌지 판단하는 문제
- 집의 가격을 예측하는 문제
이 두 가지는 겉보기에 둘 다 예측처럼 보이지만, 속성상 전혀 다릅니다. 왜냐하면 하나는 “종류를 맞추는” 문제이고, 다른 하나는 “숫자를 예측하는” 문제이기 때문입니다. 이 차이에서 AI는 분류와 회귀라는 두 갈래로 나뉘게 됩니다.
🟦 2. 분류(Classification)란?
분류는 데이터를 미리 정해진 여러 범주 중 하나로 나누는 문제입니다. 즉, 결과값이 **카테고리(범주형 변수)**일 때 사용됩니다.
✅ 예시:
- 이메일 → 스팸 / 스팸 아님
- 사진 → 고양이 / 강아지 / 토끼
- 환자 증상 → 병이 있다 / 없다
이러한 문제를 풀기 위해 머신러닝 모델은 학습 데이터를 통해 어떤 조건에서 어떤 범주에 속하는지를 학습하고, 새롭게 들어오는 데이터를 같은 방식으로 분류합니다.
📊 대표 알고리즘:
- 로지스틱 회귀(Logistic Regression)
- 의사결정나무(Decision Tree)
- 랜덤 포레스트(Random Forest)
- 서포트 벡터 머신(SVM)
- 나이브 베이즈(Naive Bayes)
🟨 3. 회귀(Regression)란?
회귀는 데이터를 이용해 연속적인 수치 값을 예측하는 문제입니다. 즉, 결과값이 **숫자(연속형 변수)**일 때 사용됩니다.
✅ 예시:
- 집의 가격 예측: 3억 원, 5.2억 원, 등
- 내일의 기온 예측: 22.5도
- 주식 종가 예측: 45,300원
회귀 모델은 입력 변수와 숫자 사이의 관계를 학습해서, 새로운 입력에 대해 합리적인 수치를 예측합니다.
📊 대표 알고리즘:
- 선형 회귀(Linear Regression)
- 다항 회귀(Polynomial Regression)
- 릿지 회귀(Ridge Regression)
- 라쏘 회귀(Lasso Regression)
- 랜덤 포레스트 회귀(Random Forest Regression)
🔁 4. 회귀라는 이름은 왜 ‘회귀’일까?
여기서 많은 분들이 궁금해하는 부분! 왜 **숫자를 예측하는 모델이 “회귀”**일까요? 오히려 “예측” 혹은 “추정”이라는 이름이 더 자연스럽지 않을까요?
📜 유래: 갈턴(Galton)의 유전학 실험
‘회귀’라는 단어는 19세기 영국의 생물학자이자 통계학자인 **프랜시스 갈턴(Francis Galton)**이 처음 사용했습니다. 그는 아버지와 아들의 키를 연구하며, 아버지가 아주 크더라도 아들의 키는 평균 쪽으로 “회귀(regress)”하는 경향이 있다는 것을 발견했죠. 이를 ‘평균으로의 회귀(regression to the mean)’라고 부르며, 수학적으로 모델링했습니다.
이 개념은 점점 넓게 퍼져, 어떤 입력값이 주어졌을 때 연속적인 결과를 예측하는 방식 전반을 ‘회귀’라고 부르게 되었습니다.
🧠 5. 분류와 회귀의 차이, 간단 정리
구분 | 분류(Classification) | 회귀(Regression) |
목적 | 카테고리 예측 | 연속된 수치 예측 |
결과값 | 고양이/강아지/토끼 등 | 가격, 온도, 수치 등 |
데이터 | 범주형(질적) | 연속형(양적) |
알고리즘 | 로지스틱 회귀 등 | 선형 회귀 등 |
🧪 6. 헷갈릴 때 구분법!
질문을 이렇게 바꿔 보세요:
- 결과값이 숫자냐? → 회귀
- 결과값이 선택지 중 하나냐? → 분류
예를 들어 “이메일이 스팸인지 아닌지”는 분류이고, “이메일을 받은 후 열람까지 걸린 평균 시간”은 회귀입니다.
✨ 7. 실생활에서의 예시
문제 상황 | 사용되는 AI 방식 |
교통량을 분석해 내일의 차량 수를 예측 | 회귀 |
신용카드 거래가 사기인지 아닌지 판단 | 분류 |
부동산 가격 예측 | 회귀 |
제품 리뷰를 긍정/부정으로 분류 | 분류 |
비행기 연착 시간 예측 | 회귀 |
📝 마무리하며
분류와 회귀는 AI 모델의 뿌리와도 같은 개념입니다. 입력값은 비슷해 보여도, 결과값이 범주인지 수치인지에 따라 접근 방식은 완전히 달라집니다. 그리고 ‘회귀’라는 말이 단지 기술적인 용어가 아닌, 통계학적 역사와 실험에서 유래되었다는 점도 흥미롭습니다.
AI의 세상은 넓고, 이해는 하나씩 차근차근 쌓아 나가야 합니다. 분류와 회귀부터 정확히 이해하는 것이 튼튼한 출발점이 될 것입니다. 😊