OLAF2 Test-Time Scaling (한글버전)

날짜

2025. 1. 16.

카테고리

Research

O1, QwQ, Deepseek-R1 같은 모델들이 뛰어난 추론 능력을 선보이며 Test-Time Scaling 방법론이 최근 흥미로운 연구 분야로 주목받고 있습니다. Test-Time Scaling은 Best-of-N, Monte Carlo Tree Search, Reflective Tuning 등 다양한 접근법을 통해 구현할 수 있습니다. 이번 포스트에서는 당사의 주력 모델인 OLAF2-14B에 Test-Time Scaling 기법을 적용해 얻은 초기 연구 결과를 공유하고자 합니다.

Experimental Setup

다음의 그래프는 X 축에 평균 thought token의 수를 기록한 Deepseek의 test-time scaling 결과입니다.

Deepseek의 test-time scaling 실험은 단일 방법론을 사용한 반면, 우리는 여러 스케일링 방식을 동시에 적용하는 방법을 사용하였습니다. 이 과정에서 토큰 수를 계산하는 데 어려움-일부 토큰이 다른 토큰보다 더 높은 비용이 발생-이 있습니다. 이를 해결하기 위해 토큰 수 대신 보다 일관된 지표인 FLOPs (Floating Point Operations)를 활용하였습니다. FLOPs의 계산은 Scaling Laws for Neural Language Models 논문에서 제시된 접근법을 따랐으며, 단일 포워드 패스에 대한 FLOPs는 다음과 같이 계산할 수 있습니다:

위 수식의 각 변수들은 다음과 같은 의미를 가집니다:

  • n_{layer}: 모델 레이어의 수

  • d_{model}: residual stream의 차원(디멘션) 수

  • n_{ctx}: input context의 토큰 수

당사에서 제안한 Test-Time Scaling 방법을 HRM8K의 서브셋인 GSM8KOmni-MATH를 통해 평가하였습니다. 두 서브셋은 다음과 같은 이유로 선택하였습니다. (향후 더 다양한 벤치마크에서의 결과를 발표 할 예정입니다.) :

  1. 난이도 다양성: GSM8K는 비교적 쉽고, 초중등 수준의 수학 문제를 다루는 반면, Omni-MATH는 올림피아드 수준의 매우 어려운 문제를 다룹니다.

  2. 간편한 평가: 두 서브셋은 모두 정답이 실수인 문제들로만 구성되어 있기 때문에 간편하게 평가를 진행할 수 있습니다.

벤치마크에 대한 세부사항이 궁금하다면, HRM8K 논문을 참고하길 바랍니다.

Evaluation Results

GSM8K와 Omni-MATH 벤치마크에서의 평가 결과는 놀랍게도 테스트 시점에서 계산 자원을 대폭 늘리는 것이 OLAF2-14B의 성능 향상에 크게 도움이 된다는 것을 보여줍니다. 그리고 이러한 성능 향상의 효율성은 계산 자원을 활용하는 방식에 크게 좌우됩니다. 이를 실험 세팅의 극한까지 확장했을 때, OLAF2-14B는 두 가지 평가 지표에서 GPT-4o를 능가하는 결과를 보여줍니다.


OLA

챗봇 이용자 280% 달성한 내용 보기

OLA

챗봇 이용자 280% 달성한 내용 보기

4주 완성의 시작

전문 지식이 없으셔도, IT 인력이 없으셔도 됩니다.
관련 전문가가 끝까지 상담해드립니다.

궁금하시다면 직접 사용해보실 수도 있습니다.

4주 완성의 시작

전문 지식이 없으셔도, IT 인력이 없으셔도 됩니다.
관련 전문가가 끝까지 상담해드립니다.

궁금하시다면 직접 사용해보실 수도 있습니다.

4주 완성의 시작

전문 지식이 없으셔도,
IT 인력이 없으셔도 됩니다.
관련 전문가가 끝까지 상담해드립니다.

궁금하시다면 직접 사용해보실 수도
있습니다.

© 2025 OneLineAI, Inc. All rights reserved.

© 2025 OneLineAI, Inc. All rights reserved.

© 2025 OneLineAI, Inc. All rights reserved.