4 minutes
Jan 8, 2025
"KMMLU: Measuring Massive Multitask Language Understanding in Korean" 논문을 기반으로 한국어 언어 모델의 한국 특화 지식 및 문화적 맥락 능력을 평가하는 KMMLU에 관한 내용을 다루고 있습니다. 해당 논문은 NAACL 2025 학회에 게재되었습니다.
이 시리즈는 원라인에이아이 AI에서 발표한 논문을 리뷰합니다. 논문과 관련해서 궁금한 내용이 있다면 원라인에이아이 AI팀에게 문의주시기 바랍니다.
다국어 벤치마크의 한계와 KMMLU의 등장
최근 대규모 언어 모델(LLM)의 성장은 영어 뿐만 아니라 다양한 언어에서 활발하게 이루어지고 있습니다. 이에 반해서 성능 평가를 위한 벤치마크 개발은 영어에서 활발하게 이루어질 뿐, 다국어의 경우 대부분 영어 기반으로 설계된 평가 벤치마크 데이터를 타 언어로 번역하는 방식에 의존해오고 있습니다. 이러한 번역된 벤치마크는 본질적인 한계를 지니고 있습니다. 우선, 번역 과정에서 자연스러운 언어적 표현이 손실되거나 번역 오류, 문법적 실수 등이 발생할 수 있습니다. 또한, 영어 중심으로 설계된 질문들은 미국의 법률 체계, 영어권 문화와 관습 등을 기반으로 하고 있어, 번역된 데이터만으로는 각 언어의 고유한 문화적, 지역적 특성을 충분히 반영하지 못합니다.
한국어 평가 환경도 예외는 아니었습니다. 기존 한국어 벤치마크는 영어 벤치마크를 기계 번역하거나, 소수의 제한된 데이터로 구성된 경우가 많아, 한국어를 주요 언어로 사용하는 LLM의 능력을 평가하기에는 적합하지 않았습니다. 또한 다음의 표를 보면 알 수 있듯이, 언어 및 문화적 이해를 중점적으로 평가하는 벤치마크들에 대해 집중되어, 전문 지식 및 모델의 추론 능력을 평가하기 위한 벤치마크의 수가 부족합니다. 이러한 문제는 한국어 모델의 성능이 과소평가되거나, 실제 한국어 사용 환경을 반영하지 못하는 결과로 이어졌습니다.
이런 맥락에서 저희 연구팀은 한국어와 한국 문화에 특화된 벤치마크의 필요성을 강조하며 해당 특성을 중점적으로 고려한 KMMLU(Korean Massive Multitask Language Understanding)를 개발하였습니다. KMMLU는 기존 번역된 벤치마크와 달리, 45개 분야에 걸쳐 35,030개의 전문가 수준의 다지선다형 질문으로 구성된 KMMLU는 기존 번역 중심의 평가 데이터와 달리, 한국어 시험 문제를 원문 그대로 수집해 언어적 자연스러움과 문화적 맥락을 온전히 반영하고 있습니다. 이 벤치마크는 기존의 다른 한국어 벤치마크와 비교해서 한국어를 기반으로 한 LLM의 성능을 보다 정확히 측정할 수 있는 새로운 기준을 제시합니다.
KMMLU: 한국어 벤치마크의 새로운 지평을 열다
KMMLU는 한국어로 작성된 전문가 수준의 MCQA (Multiple-Choice Question Answering) 문제 35,030개로 구성되어 있는 벤치마크입니다. KMMLU는 모든 질문을 한국어 시험에서 직접 수집하여 한국어와 한국 문화의 언어적, 문화적 특성을 온전히 반영한 벤치마크로, 위의 그림과 같이 인문학, 사회과학, STEM(과학, 기술, 공학, 수학), 응용과학 등 45개 분야를 아우르며, 그 중 일부는 한국의 국가 자격시험이나 공무원 시험과 같이 최소 수년 이상의 실무 경험을 요구하는 고난도 시험에서 추출되었습니다. 또한, 질문은 한국의 문화적·지역적·법적 지식을 필요로 하는 사례가 포함되어 있어, 단순 번역 기반의 벤치마크가 제공하지 못하는 한국어 모델 평가의 정밀성을 확보했습니다.
KMMLU의 주요 특징은 크게 두 가지로 나눌 수 있습니다.
질문의 자연스러운 언어적 흐름과 한국 고유의 문화적 맥락을 보장했습니다. 이는 영어 기반 벤치마크를 번역한 데이터에서 종종 발생하는 비자연스러운 표현이나 문법 오류를 방지합니다.
데이터셋과 평가 코드를 공개하여 투명성과 재현성을 높였습니다. 이를 통해 연구자들은 KMMLU를 활용해 한국어 대형 언어 모델(LLM)의 성능을 더욱 정확히 평가하고, 개선 방향을 구체화할 수 있습니다.
[Dataset Creation: KMMLU 데이터 구축]
KMMLU 데이터셋은 한국의 공무원시험(PSAT), 국가자격시험, 그리고 대학수학능력시험(CSAT)을 포함한 533개의 다양한 출처에서 수집된 371,002개의 질문으로 시작되었습니다. 이후, 데이터 품질을 최우선으로 고려하여 다음과 같은 정제 과정을 거쳤습니다:
자동 크롤링과 필터링: 초기 데이터는 자동 크롤링을 통해 수집되었으며, 중복 제거와 구문 오류 제거를 위해 정규식 패턴, 스톱워드, 모델 기반 분류기를 활용한 휴리스틱 필터링이 적용되었습니다.
형식 표준화: 4개 미만의 선택지를 가진 질문은 제외하고, 4개 이상의 선택지를 가진 질문은 모두 표준화했습니다.
데이터셋 축소: 이 과정에서 데이터셋은 약 34%가 줄어들어, 최종적으로 243,777개의 질문이 확보되었습니다. 질문의 중복성을 제거하기 위해 시즌별로 반복된 질문 또한 대폭 축소되었습니다.
[Dataset Processing: KMMLU 데이터 전처리 및 분석]
KMMLU의 테스트셋은 사람 평가에서 가장 낮은 정확도를 기록한 질문들로 구성되어 있으며, 35,030개의 질문에 대해 전부 수작업으로 검토하여 저작권 문제가 있는 질문들을 교체하거나 제거하였습니다. 또한, 데이터셋의 약 90%는 실제 시험 응시자들의 성과 데이터를 포함하고 있으며, 평균 정확도는 약 62.6%로 나타났습니다. 이로 인해 KMMLU에서 80% 이상의 점수를 기록하는 것은 최소한 인간 전문가의 성과와 동등하다고 평가됩니다.
추가적으로 KMMLU와 기존 영어 중심의 MMLU를 번역한 벤치마크 간의 한국 문화와 언어적 특성을 반영한 설계 차이를 분석하였습니다. 이를 위해 연구팀은 번역된 MMLU와 KMMLU를 다음 두 가지 측면에서 비교하였고, 비교 결과는 위 그래프와 같습니다:
문장의 자연스러움: 한국어 화자들에게 자연스럽게 느껴지는 구성을 가지고 있는가? → KMMLU의 문항은 한국어 화자들에게 자연스럽게 느껴지는 구성을 가지고 있으며, 이는 번역된 MMLU와의 큰 차이점입니다.
한국 지식 요구 수준: 한국의 문화적, 사회적, 법적 지식을 요구하며, 한국 특유의 맥락을 평가할 수 있는가? → KMMLU의 약 20.4%의 문항은 한국의 문화적, 사회적, 법적 지식을 요구합니다. 이는 한국 특유의 맥락을 평가할 수 있는 유용한 지표를 제공합니다.
[KMMLU-HARD: 고난도 문제 평가]
KMMLU의 고난도 문제를 평가하기 위해 별도의 하위 세트인 KMMLU-Hard도 함께 설계되었습니다. 이는 GPT-4, HyperCLOVA X, Gemini Pro의 상업용 모델을 포하한 다양한 언어 모델이 정답을 맞추지 못한 4,014개의 문제만으로 구성된 데이터셋입니다. KMMLU-Hard는 LLM(Large Language Model)의 한계와 약점을 보다 구체적으로 파악할 수 있도록 설계되었습니다.
KMMLU 실험 결과 분석
1. Pretraining Compute
KMMLU 평가 결과는 모델의 성능이 모델의 사전 학습에 사용된 계산 자원(ExaFLOP, 10^18
부동소수점 연산으로 6 × #param × #tokens
으로 계산)에 비례하여 증가하는 경향을 보여줍니다. 위 그래프를 보면 알 수 있듯이 Polyglot-Ko는 한국어 특화 모델로 학습되었음에도 불구하고, 다른 모델들에 비해 더 적은 학습 비용으로 인해 성능이 크게 떨어지는 것을 확인할 수 있습니다. 이는 충분한 데이터와 계산 자원을 활용한 장기 학습이 모델의 언어 이해 능력을 강화하는 데 중요하다는 점을 시사합니다.
2. Fine-Tuning
사전 학습된 모델의 성능은 Fine-Tuning 후에도 크게 개선되지 않는 경향을 보였습니다. Llama-2-70B 및 Qwen-72B 모델에서는 Fine-Tuning 후 성능이 오히려 감소하는 (-3.55% 및 -5.81%) 것을 확인할 수 있었습니다. 이는 Fine-Tuning 과정에서 사용된 데이터셋이 다국어 또는 한국어 텍스트를 충분히 포함하지 못하거나, Fine-Tuning이 본질적으로 기존의 언어 지식을 강화하기보다 특정 과제에 최적화되기 때문일 가능성이 있습니다.
3. Multilinguality at Scale
KMMLU 평가 결과는 대규모 모델이 Curse of Multilinguality 문제(다국어 데이터로 학습할 경우, 모델의 성능이 떨어지는 문제)를 극복할 수 있음을 보여줍니다. 예를 들어, Llama-2, Yi, Qwen과 같은 다국어 모델은 한국어 데이터의 비중이 낮음에도 불구하고 한국어 특화 언어 모델인 Polyglot-Ko보다 뛰어난 성능을 보였습니다. 이는 대규모 데이터 학습과 모델 크기의 확대가 한국어와 같은 비주류 언어에서도 긍정적인 성능 전이를 가능하게 한다는 점을 나타냅니다.
4. Continual Pretraining
Yi 시리즈 모델(Yi-Ko-6B, Yi-Ko-34B)은 기존의 영어-중국어 이중언어 모델에서 추가적인 한국어 학습(Continual Pretraining)을 통해 성능이 크게 향상되었습니다. 특히 Yi-Ko-34B 모델은 60억 개 이상의 추가 토큰 학습 후 평균 50.46%의 성능을 기록하였으며, 이는 Polyglot-Ko보다 월등히 높은 수준입니다. 이 결과는 특정 언어에 대한 Continual Pretraining이 모델의 특정 언어에 대한 이해도를 강화하는 효과적인 전략임을 시사합니다.
KMMLU가 제시하는 한국어 AI의 미래
KMMLU 벤치마크의 도입은 한국어 대형 언어 모델 개발의 중요한 이정표를 제시합니다. 기존의 번역 기반 평가와는 달리, 한국 문화와 언어적 뉘앙스를 충실히 반영한 이 데이터셋은 언어 모델의 한계를 명확히 보여주었으며, 새로운 한국어 벤치마크 제작에 방향을 제시하고 있습니다. 특히, 최신 LLM조차도 한국어에서 기대 이하의 성과를 보였다는 점은 한국어 특화 벤치마크 뿐만 아니라, 모델 개발의 필요성을 다시 한번 강조합니다.
이 블로그를 마무리하며, KMMLU는 단순히 평가 도구를 넘어, 언어 모델 연구와 실질적인 활용 간의 간극을 좁히는 데 중요한 발판이 될 것임을 기대해 봅니다. 앞으로 더 정교하고 한국어 친화적인 AI 모델이 개발되어 우리 삶에 실질적인 도움을 주는 날을 고대하며, 이번 논문 리뷰를 마칩니다.
Reference
📝 Paper: KMMLU: Measuring Massive Multitask Language Understanding in Korean
🖥 Dataset (KMMLU): HAERAE-HUB/KMMLU
🖥 Dataset (KMMLU-HARD): HAERAE-HUB/KMMLU-HARD