이재진 교수 연구팀, 판결문 개인정보 비식별화 모델 개발

July 18, 2025

서울대 데이터사이언스대학원 이재진 교수 연구팀이 법원 판결문 내 개인정보를 빠르게 비식별화하는 모델 “SNU Thunder-DeID”를 개발했습니다.
연구팀은 강제추행, 폭행, 사기 등 형사사건 4,500건을 기반으로 2만 7천여 개의 개인정보를 수작업으로 라벨링하고, 595종의 세분화된 개인정보 유형 체계를 구축해 모델을 학습시켰습니다. 기존 법원행정처의 시스템이 15% 수준의 낮은 정확도를 보인 것과 달리, 이번 모델은 표현 단위 비식별 여부 판별 정확도 99%, 세부 유형 분류 정확도 89% 이상을 기록하며 현저한 성능 향상을 입증했습니다.

연구팀은 모델, 데이터셋, 소스코드를 함께 공개하였으며, 이는 판결문 및 재판기록물의 자동 비식별화 시스템으로 법조 현장 전반에 활용될 수 있습니다. 향후에는 형사사건 외에도 민사, 행정, 특허소송 등으로 연구를 확장해 법률 특화 언어모델 개발을 지속할 계획입니다.