원라인에이아이 추론특화 모델 OLAF v2를 소개합니다!

날짜

2025. 1. 13.

카테고리

OLA-Contents

OLAF v2를 소개합니다.


Hugging Face 모델 공개: https://huggingface.co/OLAResearch/OLAF2-14B

OnelineAI에서 독자적으로 개발한 Qwen2.5를 기반으로 한 한국어 언어 모델 OLAFv2를 소개합니다! OLAFv2는 14B와 1.5B 두 가지 버전으로 제공되며, 두 버전 모두 정교한 수학 및 STEM 문제를 해결하기 위한 추론 특화 모드 (Reasoning Mode)를 갖추고 있습니다. 또한, 최대 32K의 context length를 지원하여 RAG (Retrieval-Augmented Generation) 및 도구 기반 애플리케이션에 적합하도록 제작되었습니다. 모델 학습 과정에서는 반복적인 데이터 생성과 안전성 (Safety) 및 거부 (Refusal) 메커니즘에 중점을 두어 환각 (Hallucination)을 줄이고 신뢰도를 높였습니다.

Reasoning Mode

OpenAI o1의 추론 메커니즘으로 거론되는 추론 시간 스케일링 (Inference-Time Scaling)의 발전에 힘입어, OLAFv2는 Reasoning mode에서 더욱 길고 세부적인 추론 과정을 생성하도록 설계되었습니다. 학습 시점의 컴퓨팅 자원 대신 테스트 시점의 컴퓨팅 자원 확장에 주력하는 추론 시간 스케일링으로, 소형 모델도 그 잠재력을 최대한 발휘할 수 있게 됩니다. 이는 대규모 모델을 배포하기 어려운 하드웨어 제약이 걸린 환경에서 특히 유리합니다. 자세한 내용은 최근에 포스팅한 HRM8K 블로그의 “Scaling Test-Time Compute” 섹션을 참고하시기 바랍니다.


OLAFv2의 Reasoning mode는 복잡한 한국어 수학 추론 문제로 구성된 HRM8K 벤치마크에서 성능을 43.8에서 45.8로 크게 향상시켰습니다. 이 기능을 통해 소형 모델도 대형 모델에 근접한 추론 성능을 달성하면서, 자원이 제한된 소형 사내 서버 환경에서도 강력한 추론 기능을 제공하는 고품질 언어 모델을 활용할 수 있습니다.


Evaluation

Reasoning(추론), Knowledge(지식), Fluency(유창성) 이렇게 3가지의 카테고리에서 OLAF2 모델을 평가하였습니다.

Reasoning HRM8K

→ HRM8K는 8,011개의 영어-한국어 수학 문제로 이루어진 벤치마크로, 다국어 수학적 추론 역량을 평가하기 위해 설계되었습니다. 이 벤치마크에는 영어 수학 벤치마크와 한국어 수학 경시대회 및 시험 등 다양한 출처의 문제가 포함되어 있어, 두 언어에서의 문제 해결 능력을 평가할 수 있습니다.

Knowledge KMMLU

→ KMMLU는 한국어 언어 모델의 역량을 평가하기 위해 고안된 종합 벤치마크로, 45개 과목에 걸친 총 35,030개의 전문가 수준 객관식 문제 (Multiple-Choice Question Answering, MCQA)로 구성되어 있습니다. 이 벤치마크는 모델의 전문 분야별 추론 능력, 일반 지식 역량, 한국 문화적 지식을 중점적으로 평가합니다.

Fluency LogicKor

→ LogicKor는 모델의 사고 능력을 측정하기 위해 설계된 한국어 다중 도메인 추론 벤치마크로, 추론, 수학, 글쓰기, 코딩, 이해, 문법의 여섯 가지 핵심 영역을 다룹니다. LLM을 심사자로 활용하는 LLM-as-a-Judge 방식을 활용하여 각 영역에서 다양한 작업을 포함한 42개의 다중 턴 (Multi-turn) 프롬프트를 평가합니다. 이를 통해 LogicKor는 복잡하고 다양한 한국어 도전 과제를 처리하는 모델의 역량을 종합적으로 평가합니다.

*은 EXAONE3.5 Techincal Report에서 발췌한 점수를 의미함
**은 LogicKor 공식 리더보드에서 발췌한 점수를 의미함
그 외의 점수는 공식 구현 코드를 사용하여 재평가한 결과

Key Takeaways

OLAFv2

(Standard Mode): Standard mode에서 OLAFv2(14B 파라미터)는 43.8점을 HRM8K에서 기록하며, 크기가 두 배 이상 큰 EXAONE-3.5-32B-Instruct(41.4)를 능가하는 성능을 보여줍니다. 이는 OLAFv2가 전용 추론 모드를 사용하지 않아도 뛰어난 추론 능력을 갖추고 있음을 시사합니다. KMMLU에서는 OLAFv2가 54.21점을 기록하며, 훨씬 더 큰 모델인 Llama-3.1-70B-Instruct(60.83) 바로 아래에 위치하면서도 EXAONE-3.5-32B-Instruct(47.63)를 크게 앞섭니다. 또한, LogicKor에서는 8.51점을 기록해 EXAONE-3.5-32B-Instruct(9.06)에 이어 두 번째로 높은 평가 결과를 거두며, OLAFv2가 상대적으로 작은 크기에도 불구하고 유창하고 일관된 출력을 생성하는 뛰어난 능력을 보여줍니다.


(Reasoning Mode): Reasoning mode에서 OLAFv2는 45.8점을 HRM8K 벤치마크에서 기록하며 Llama-3.1-70B-Instruct(45.6)와 Qwen2.5-32B-Instruct(44.4)와 같은 더 큰 모델들을 능가하는 최고 점수를 달성했습니다. 이는 Reasoning mode를 통한 추론 과정이 복잡한 추론 작업을 처리하는 데에 효과적이라는 것을 입증합니다.


OLAFv2-Mini

(Standard Mode): Standard mode에서 OLAFv2-Mini는 35.9점을 HRM8K에서 달성하며, 소형 모델임에도 불구하고 뛰어난 추론 성능을 보여줍니다. KMMLU에서는 44.77점을 기록하며, EXAONE-3.5-2.4B-Instruct(42.39)와 같은 다른 소형 모델을 능가하며 강력하고 효율적인 지식 표현 능력을 입증합니다. LogicKor(유창성)에서는 7.4점을 기록하며, 소형 모델로서 합리적인 유창성을 제공하지만, 상위 대형 모델들보다는 약간 뒤처집니다.


(Reasoning Mode): Reasoning mode에서 OLAFv2-Mini는 38.0점을 HRM8K에서 기록하며, Reasoning mode가 소형 모델에서도 효과적으로 작동하면서 강력한 성능을 보여주었습니다. 이는 Reasoning mode와 테스트 시 계산 확장 (Test-time Scaling)의 이점을 더욱 잘 보여줍니다.

OLA

챗봇 이용자 280% 달성한 내용 보기

OLA

챗봇 이용자 280% 달성한 내용 보기

4주 완성의 시작

전문 지식이 없으셔도, IT 인력이 없으셔도 됩니다.
관련 전문가가 끝까지 상담해드립니다.

궁금하시다면 직접 사용해보실 수도 있습니다.

4주 완성의 시작

전문 지식이 없으셔도, IT 인력이 없으셔도 됩니다.
관련 전문가가 끝까지 상담해드립니다.

궁금하시다면 직접 사용해보실 수도 있습니다.

4주 완성의 시작

전문 지식이 없으셔도, IT 인력이 없으셔도 됩니다.
관련 전문가가 끝까지 상담해드립니다.

궁금하시다면 직접 사용해보실 수도 있습니다.

© 2025 OneLineAI, Inc. All rights reserved.

© 2025 OneLineAI, Inc. All rights reserved.

© 2025 OneLineAI, Inc. All rights reserved.