동료 소송 당하자 AI로 숙제 풀었다…특진까지 딴 문과 경찰관
November 17, 2023
“동료 수사관들이 마우스로 손수 사각형 박스를 그려 마스킹(특정 문자를 덮어서 가리는 것)하느라 고생한다는 이야기를 듣고 프로그램 개발을 결심하게 됐습니다.”
올해 경찰청 빅데이터 분석 경진대회에서 대상을 받은 김우진(27·송파경찰서) 경감의 말이다. 김 경감은 AI 기술로 전자문서에 포함된 개인정보를 비식별화하는 자동화 시스템을 제안해 “현장 활용도와 기술적 완성도가 높은 작품”이라는 평가를 받으며 대상을 차지했다. 지난 13일부터 달게 된 경감 계급은 이 대회 부상이었다.
개인정보 비식별처리는 일선 수사관들에게는 ‘보람 없는 숙제’같은 업무다. 수사 기관 특성상 수사 자료에 대한 정보공개청구가 자주 들어오는데, 담당 수사관이 일일이 수작업으로 비식별처리를 해야 하기 때문이다. 마스킹 작업을 누락했다가 행정소송을 당하는 일까지 생기곤 하기 때문에 대충할 수도 없다. 물론 지금도 자동 비식별처리 프로그램이 있지만, AI 기반이 아니라서 주민등록번호나 계좌번호처럼 규칙성이 있는 정보를 가려주는데 그친다는 한계가 있었다.
이번에 김 경감이 개발한 프로그램은 형식이 정해진 개인정보뿐 아니라 기업명이나 브랜드명처럼 기계적으로 가려내기 어려운 정보까지 비식별화해준다. AI 딥러닝 학습을 통해 정보의 종류를 가려내는 훈련을 거쳤기 때문에 비식별화 정확도는 96%에 육박한다.
이 기술을 구현하기까지 가장 어려움을 겪었던 부분은 AI가 학습할 원본 데이터를 찾는 일이었다. 한국어 기반의 데이터셋이 필요했기에, 김 경감은 국내 자료실에서 적합한 데이터셋을 찾느라 시간을 보냈다고 한다. 어렵게 개인정보가 마스킹 된 데이터셋을 찾아낸 후에는 전처리 과정과 함께 마스킹 된 부분에 실습용 가상 정보를 입히는 작업을 진행했다. 현장에서 이 프로그램 구현을 하려면 어플이 필요하다고 생각했고, 이를 위해 자바 언어도 독학했다. 모델 AI학습에만 한 달, 또 앱 구현에 한 달을 써서 꼬박 두 달 만에 프로그램을 완성할 수 있었다. 동료 수사관들의 고충을 반영해 자필로 쓴 고소장도 비식별화 작업을 할 수 있게 구현하는 정성도 들였다.
경찰대 행정학과를 졸업한 김 경감은 ‘찐 문과생’이었지만 지난해 서울대학교 데이터 사이언스 대학원에서 석사과정에 진학해 ‘거대언어모델’ 최적화와 자연어 처리 기법을 연구하고 있다. 학생 시절 학보사 활동을 하며 과학 기술 분야를 취재하던 중 흥미를 느껴 경찰대 ‘국내 대학원 위탁 교육과정’에 지원해 본격적인 대학원 생활을 시작하게 됐다고 한다.
기동대 생활을 하면서 틈틈이 코딩 공부를 하고, 대학원에 합격한 뒤로는 밤을 새우는 것이 밥 먹는 것보다 자연스러운 시간을 보냈다고 한다. 김 경감은 “하기 싫은 일이라면 절대로 못 했겠지만, 평소 관심 있던 분야라서 밤새우면서도 힘들다는 생각은 하지 못했다”고 말했다.
김 경감은 ”언어모델과 개인정보에 대해 공부하고 있다 보니 챗 GPT에 관심이 있다”면서 “앞으로도 배운 내용을 활용해 경찰 행정 선진화에 도움이 되고 싶다”고 포부를 밝혔다.
경찰청은 2021년부터 데이터 기반 과학 치안을 목표로 해당 경진대회를 진행해왔다. 특진을 부상으로 내건 것은 올해부터다. 경찰청 관계자는 “대상을 비롯한 수상작에 대해서는 기술 보정을 거쳐 현장 활용 방안을 검토할 계획”이라고 밝혔다.
신혜연 기자 shin.hyeyeon@joongang.co.kr
Copyright© 중앙일보.