4 minutes
Oct 15, 2024
"KRX-Bench: Automating Financial Benchmark Creation via Large Language Models" 논문을 기반으로 한국어 언어모델의 한국 특화 지식 및 문화적 맥락을 평가하는 HAE-RAE Bench에 관한 내용을 다루고 있습니다. 해당 논문은 LREC-COLING 2024 FinNLP 학회에 게재되었습니다.
이 시리즈는 원라인에이아이 AI에서 발표한 논문을 리뷰합니다. 논문과 관련해서 궁금한 내용이 있다면 원라인에이아이 AI팀에게 문의주시기 바랍니다.
금융 도메인 언어 모델의 등장과 평가의 필요성
오늘날 대형 언어 모델(LLM)의 발전은 다양한 산업의 업무를 혁신하고 있습니다. 그러나 금융 분야에서는 LLM이 생성하는 정보의 정확성과 신뢰도가 무엇보다 중요합니다. 잘못된 정보는 오판을 유발하여 막대한 손실을 초래할 수 있기 때문입니다.
한국거래소(KRX)와 OneLineAI가 공동 집필한 “KRX-Bench: Automating Financial Benchmark Creation via Large Language Models” 논문에서는 이러한 금융 분야 LLM의 문제를 지적하면서, 벤치마크 자동 생성 파이프라인 KRX-Bench를 제안하였습니다.
KRX-Bench는 GPT-4를 활용하여 실제 기업의 연간 보고서, 금융 소송 문서 등 다양한 금융 자료로부터 자동으로 질문을 생성합니다. 해당 파이프라인을 통해 생성된 벤치마크 데이터셋은 다양한 금융 주제를 다루며, 단순한 사실 확인부터 복잡한 금융 추론까지 다양한 난이도의 문제를 포함하고 있습니다. 또한, 다국어 지원과 개방형 질문 등 다양한 형태의 문제를 제공하여 언어 모델의 종합적인 능력을 평가할 수 있습니다.
KRX-Bench
KRX-Bench: 벤치마크 생성 파이프라인
KRX-Bench는 금융 분야의 LLM 평가를 위한 자동 벤치마크 생성 파이프라인입니다. KRX-Bench는 GPT-4-Turbo를 활용하여 기존 문서로부터 다음과 같이 크게 3가지의 프로세스로 벤치마크 데이터를 생성합니다:
질문 및 답변 생성:
GPT-4-Turbo에 문서를 제공하고 Q&A 쌍을 생성하도록 지시
이 단계에서는 연간 보고서, 금융 소송 문서 등 다양한 금융 자료를 입력으로 사용
오답 선택지 생성:
생성된 Q&A 쌍을 다지선다형 문제로 변환하기 위해 오답 선택지 제작
BM25 알고리즘을 사용해 유사한 질문을 찾고, GPT-4-Turbo가 이를 바탕으로 그럴듯한 오답 생성
질문과 무관한 회사를 언급하거나 길이가 크게 다른 선택지는 제거하는 등의 휴리스틱 규칙을 적용하여 보기의 품질을 관리
품질 관리:
GPT-4-Turbo를 활용하여 답변 불가능한 질문을 식별하고 제거 → False Positive 비율을 1%로 낮춤
KRX-Bench-POC: 벤치마크 데이터셋
파이프라인의 효과를 검증하기 위해 KRX-Bench-POC라는 벤치마크 데이터셋을 생성하여 테스트를 진행하였습니다. 해당 벤치마크 데이터셋은 다음과 같은 특징을 가집니다:
미국, 일본, 한국의 연간 보고서를 기반으로 생성
총 1,003개의 질문 (미국 373개, 한국 319개, 일본 311개)
15개의 다양한 카테고리(주요 사업, 사업 목표, 회사 미션 등)로 구성
KRX-Bench-POC에 속해 있는 벤치마크 데이터셋 예시
벤치마크 데이터셋의 품질 평가는 다음과 같이 진행했습니다:
머신 러닝 특징 테스트:
Similarity-based: BM-25 & BERT를 사용하여 질문과 보기 간에 유사도가 가장 높은 보기를 답으로 고려
Zero-shot Classifier: NLI 태스크로 학습된 분류기 사용
KRX-Bench-POC는 기존의 HellaSwag 벤치마크와 비교하여 유사하거나 더 낮은 점수를 보여, 과도한 패턴이나 단서가 없음을 확인했습니다.
사람 평가:
GPT-4-Turbo의 질문 분류와 인간 평가자의 판단을 비교했습니다.
결과적으로 false positive(FP) 비율이 1%에 불과해, 생성된 질문의 높은 품질을 입증했습니다.
Result
KRX-Bench-POC를 활용한 다양한 LLM의 평가 결과는 다음과 같은 인사이트를 제공합니다:
모델 크기와 성능의 관계
당시 최신 오픈소스 모델인 Qwen1.5-72B와 Llama-2-70B도 80% 미만의 점수를 기록하며 여전히 개선의 여지가 있음을 시사
KRX-Bench 파이프라인이 인간의 개입 없이도 최신 모델들을 도전적으로 평가할 수 있는 벤치마크를 성공적으로 생성했음을 입증
전체 데이터셋에 걸쳐서 3-shot setting으로 계산된 정확도의 평균
지역별 편향
모든 질문이 영어로 제시되었음에도 불구하고, 모델들은 미국 기업에 관한 질문에서 일본이나 한국 기업 관련 질문보다 더 높은 성능을 보임
이러한 결과는 영어로 된 일본 및 한국 기업 관련 자료의 부족, 추가 학습 과정에서의 catastrophic forgetting 등 여러 요인에 기인할 수 있습니다. 또한 더 어려운 문서(예: 내부 문서)를 입력으로 사용하면 벤치마크의 난이도를 쉽게 높일 수 있음을 시사
GPT-4-Turbo 자체 평가
KRX-Bench 파이프라인이 GPT-4-Turbo를 사용하여 생성되었다는 점에서, GPT-4-Turbo 자체의 벤치마크 수행 능력을 평가하는 것은 중요한 의미를 가짐
GPT-4-Turbo는 테스트된 모델 중 가장 높은 점수를 기록했지만, 모든 하위 집합에서 완벽한 성과를 보이지는 않음
특히 한국과 일본 기업 관련 질문에서 상대적으로 낮은 점수를 기록
이는 보충 자료를 활용한 데이터셋 생성 방식이 모델의 지식 범위를 넘어서는 질문을 만들어낼 수 있음을 시사
KRX-Bench 구현 가이드
KRX-Bench 파이프라인은 단순히 다지선다형 문제를 생성하는 데 그치지 않고, 다양한 종류의 금융 벤치마크를 만드는 데 활용될 수 있습니다:
Open-ended Generation
KRX-Bench는 다지선다 문제에서 벗어나 언어 모델의 생성 능력을 평가하기 위한 개방형 질문을 만들 수 있습니다.
해당 벤치마크 데이터셋에 대한 평가는 "LLM-as-a-Judge" 접근법을 사용하여 답변의 품질을 1-5점 척도로 평가할 수 있습니다.
이 방법은 모델의 생성 능력뿐만 아니라 지식의 깊이도 평가할 수 있어, 금융 분야 LLM의 종합적인 성능 측정에 유용합니다.
open-ended question 예시
Multilinguality
KRX-Bench를 통해 한국어로 250개의 질문을 생성하고, 이를 영어에서 번역한 질문과 비교 평가했습니다.
두 명의 평가자가 질문의 자연스러움과 품질을 비교한 결과, 직접 생성된 결과가 더 자연스럽고 품질 측면에서 좀 더 괜찮다는 것을 확인하였습니다.
generation과 translation 간의 win rate 비교 결과
Beyond Knowledge Benchmarks
KRX-Bench를 통해 한국의 금융 소송 관련 문서를 입력으로 사용하여 100개의 법적 추론 문제를 생성했습니다.
평가 결과, GPT-4-Turbo가 거의 완벽한 점수를 받으며 입력 문서의 특성이나 오답 생성의 한계 때문일 수 있기 때문에 추가적인 연구가 필요합니다.
Multilinguality & Reasoning Capability 평가 결과
Conclusion
KRX-Bench는 금융 분야에서 LLM을 평가하기 위한 자동화 벤치마크 생성 파이프라인입니다. 이 연구의 주요 성과와 의의는 다음과 같습니다:
자동화된 벤치마크 생성: KRX-Bench는 GPT-4를 활용하여 실제 기업 보고서와 금융 문서로부터 고품질의 평가 문항을 자동으로 생성합니다. 이는 빠르게 변화하는 금융 시장에 대응하여 지속적으로 최신 벤치마크를 제공할 수 있는 가능성을 보여줍니다.
다양성과 포괄성: KRX-Bench-POC를 통해 미국, 일본, 한국의 기업들을 아우르는 다국적 벤치마크를 구축했습니다. 이는 LLM의 글로벌 금융 지식을 평가하는 데 중요한 도구가 될 수 있습니다.
품질 검증: 엄격한 품질 관리 프로세스를 통해 생성된 벤치마크의 신뢰성을 확보했습니다. 특히 1%의 낮은 오류율은 이 방법론의 효과성을 입증합니다.
다양한 응용 가능성: 개방형 질문 생성, 다국어 지원, 법적 추론 문제 생성 등 KRX-Bench의 다양한 응용 사례를 통해 이 파이프라인의 유연성과 확장성을 확인했습니다.
LLM 성능 평가: 최신 LLM들의 성능을 평가한 결과, 여전히 개선의 여지가 있음을 확인했습니다. 특히 지역별 편향성 문제는 앞으로 해결해야 할 중요한 과제로 남아있습니다.
KRX-Bench는 금융 분야 LLM의 발전을 위한 중요한 도구가 될 것입니다. 이 연구는 LLM의 금융 지식과 추론 능력을 정확히 평가하고, 나아가 모델의 개선 방향을 제시하는 데 기여할 것입니다. 또한, KRX-Bench는 금융 분야에서 LLM의 신뢰성과 정확성을 높이는 데 중요한 역할을 할 것이며, 이는 궁극적으로 금융 산업에서 AI 기술의 안전하고 효과적인 활용을 촉진할 것입니다.