이재진 교수 연구팀, 고성능 한국어 LLM ‘Llama-Thunder’ 개발
July 3, 2025

서울대 데이터사이언스대학원 이재진 교수 연구팀이 고성능 한국어 특화 거대언어모델(LLM) ‘Llama-Thunder-LLM’, 한국어 전용 토크나이저 ‘Thunder-Tok’, LLM 평가용 벤치마크 ‘Thunder-LLM’을 개발했습니다.
이번 연구는 영어 기반 LLM ‘Llama’를 바탕으로 3TB 규모의 한국어 웹 데이터를 수집·전처리하고, 연속 학습 및 사후 학습 기법을 적용해 중국의 ‘딥시크(DeepSeek)’처럼 제한된 자원으로도 고성능 LLM을 개발할 수 있음을 입증했습니다.
특히 한국어 문법 특성을 반영한 Thunder-Tok은 기존 대비 약 44%의 토큰 수 절감을 통해 학습 및 추론 효율을 크게 향상시켰으며, 자체 구축한 벤치마크를 통해 한국어 LLM의 성능을 객관적이고 체계적으로 평가할 수 있는 기반도 마련했습니다.
연구 성과는 ‘초거대 AI모델 및 플랫폼 최적화 센터’ 웹페이지에 공개되었습니다.