관리 메뉴

밤 늦게까지 여는 카페

AI 엔지니어링 스터디 #3 - AI 서비스 개발하기 전 체크리스트 본문

For Fun/잡학 지식

AI 엔지니어링 스터디 #3 - AI 서비스 개발하기 전 체크리스트

Jㅐ둥이 2026. 2. 3. 00:15
반응형

AI 서비스를 개발하실 생각이신가요? 어떤 것부터 알아봐야 할지 막막하셨다면 도움이 될 수 있을 것 같습니다.

 

"머신러닝 시스템 설계" 로도 유명한 저자 칩 후옌이 2025년에 출간한 "AI 엔지니어링" '2장 파운데이션 모델 이해하기' 를 정리한 내용입니다.


1. AI 모델 직접 학습시킬 것인가요?

직접 학습시키시려구요...?

 

갈수록 언어 모델의 파라미터가 커지면서 필요한 학습 데이터의 양도 따라 늘어나고 있습니다.

 

최근 모델들은 사업적, 법적인 이유 등 다양한 이유로 학습 데이터의 크기를 밝히지 않고 있지만

2020년에 공개된 GPT-3 모델만 하더라도 3000억(300B)개의 토큰이 학습에 사용되었습니다.

 

더 이상 개인이 AI 모델을 학습시키는데 필요한 데이터를 마련할 수 있는 시대는 이제 끝났다고 생각해야 하지 않을까 싶습니다...

그래도 다행인 점은 오픈소스 데이터셋들이 생각보다 많다는 것입니다!

 

유명한 오픈소스 데이터셋들

하지만 학습한 데이터의 특성에 따라 AI 모델의 성능이 달라지는 것에 주의해야 합니다.

가장 대표적으로 어떤 언어로 학습했는지 입니다.

 

영어 데이터만으로 학습한 AI 모델은 영어 이외의 언어로는 부족한 성능을 보여줍니다.

  • 한국어는 인터넷에서 적게 사용되는(=학습 데이터가 적은) 저자원 언어(low-resource language)라서
  • 많은AI 모델들이 영어를 사용했을 때 성능이 좋게 나오는 이유가 바로 학습 데이터의 양에 기인한 것이었습니다 ㅜㅠ
  • 영어를 공부해야 할 이유가 늘어나는 것 같습니다

특정 도메인에(의료, 법률, 미디어 등) 특화된 AI 모델을 만들고 싶다면 해당 분야의 전문적인 데이터셋이 필요합니다.

다양한 분야의 데이터셋들이 있으니 

 

2. 어떤 모델을 사용할 것인가요?

2.1. 아키텍처

요즘 핫한 건 트랜스포머 기반 아키텍처지만 RWKV, SSM, Mamba, Jamba 등 새로운 연구가 계속해서 나오고 있으니 관심 가지고 있으면 좋을 것 같습니다.

 

2.2. 모델 크기

모델의 크기도 굉장히 중요합니다. 일반적으로 모델의 파라미터 수가 늘어나면 학습 용량이 커져서 성능이 향상됩니다.

 

하지만 학습 용량이 커졌다는 말은 무조건적인 성능 향상을 뜻하는 것이 아닙니다.

그만큼 더 많은 양의 데이터를 학습할 수 있다는 뜻이죠.

 

그러면 얼마나 많은 양의 데이터를 학습해야 할까요?

DeepMind에서 발표한 Training Compute-Optimal Large Language Models에 따르면

모델 파라미터의 20배에 달하는 토큰을 학습에 사용했을 때 연산량 대비 성능이 가장 좋았다고 합니다.

참고: https://arxiv.org/pdf/2203.15556

 

  • 최근 인기를 얻은 sparse model에 적용되는 계산법을 찾는 것도 활발한 연구 분야라고 합니다.

 

배치 크기, 에포크 수, 학습률, 레이어별 초기 분산 등과 같은 하이퍼파라미터도 모델의 성능에 많은 영향을 줍니다.

그렇지만 하이퍼파라미터를 조절해가면서 파운데이션 모델을 학습시키는 것은 정말 많은 비용이 드는 일입니다.

 

놀랍게도 마이크로소프트와 OpenAI에서 4천만 개의 파라미터를 가진 모델에서 67억 개의 파라미터를 가진 모델로 하이퍼파라미터를 전이할 수 있다는 것을 보여줬습니다.

파운데이션 모델을 학습하는데 워낙 많은 비용을 필요로 하고, 학습에 필요한 데이터가 많다보니 이런 연구도 빛을 발하는 것 같습니다.

 

 

3. 모델 성능이 원하는만큼 나오지 않나요? 사후 학습이 있습니다.

사후 학습은 사전 학습이 완료된 모델을 대상으로 수행하는 추가 학습입니다. 일반적으로 다음 두 단계로 구성됩니다.

  1. 지도 파인튜닝(Supervised Fine Tuning)
  2. 선호도 파인튜닝(Preference Fine Tuning)

지도 파인튜닝은 글을 완성시키는데 최적화 된 모델을 대화에 최적화 시키는 작업입니다.

 

실제로 레이블러를 고용해서 특정 프롬프트에 대한 응답을 생성합니다.

복잡한 프롬프트에 대한 응답을 필요로 하는 경우도 많기 때문에 보통 고학력 레이블러를 고용하고 비용도 비싼 편입니다.

 

선호도 파인튜닝은 일반적으로 사용자가 선호하는 답변을 하게 만들기 위한 작업입니다.

 

대표적인 방법으로 Reinforcement Learning From Human(RLHF)이 있는데

 

레이블러가 주어진 (프롬프트, 응답) 쌍에 대해 점수를 매기면 보상 모델이 이를 학습하고

파운데이션 모델은 보상 모델로부터 높은 점수를 받는 방향으로 학습하는 것입니다.

  • 보상 모델을 학습시키는 것이 파운데이션 모델을 학습시키는 것보다 훨씬 쉬운 작업이라고 합니다.

선호도 파인튜닝이 모델의 성능을 높여주는 이유에 대해서는 여러 논쟁이 있다고 합니다.

무조건 이를 따르는 것이 아니라 상황에 맞게 사후 학습을 진행하면 될 것 같습니다.

  • 개인 스타일링 서비스로 유명한 스티치 픽스와 동남아시아 최대의 슈퍼앱인 그랩은 best of N과 보상 모델만으로 충분했다고 하네요!

 

4. AI 모델의 응답이 마음에 안 드시나요? 샘플링 기법을 활용해보세요

샘플링이란 모델이 다음 토큰을 예측하는 것을 의미합니다. 그렇다면 샘플링 기법에는 무엇이 있을까요?

 

1) Temperature, Top-k, Top-p와 같은 파라미터 조절

2) 여러 응답을 생성해서 그 중 좋은 응답 고르는 Test Time Compute(TTC) 전략

3) 프롬프팅을 통한 응답 구조화

4) 후처리를 통한 응답 검증

5) 제약 샘플링

6) 파인튜닝을 통한 응답 최적

 

이 부분부터는 조금 실무적인 영역이 많은 것 같습니다.

 

실제로 AI 모델을 서빙해보셨다면 창의력 - 일관성을 맞추기 위해서 temperature, top-k, top-p을 조정해보셨을 거에요.

뿐만 아니라 TTC, 프롬프팅, 후처리와 같은 기법들이 생각보다 복잡하지 않기 때문에 한번 경험해보는 것을 추천드립니다.

  • 물론 정확도를 매우 높이기 위해서는 많은 노력이 필요하겠지만요...!

5. AI의 확률적 특성

위와 같은 노력을 했음에도 불구하고 모델은 잘못된 응답을 할 수 있습니다.

AI 모델은 확률적으로 응답을 생성하는 것이기 때문에 일관적이지 않고 '환각'이라고 하는 잘못된 응답을 생성할 수 있습니다.

 

문제는 아직 환각의 정확한 원인을 밝혀내지 못했다는 것입니다.

 

+++

추후에 환각을 어떻게 감지하고 측정하는지도 알아볼 예정입니다.

반응형