생성형 AI의 위험 감지하는 ‘Kanana Safeguard’…국내 기업 최초, 핵심 기술 오픈소스로 무료 공개
(씨넷코리아=김태훈 기자) 생성형 AI가 빠르게 퍼지고 있는 가운데, 카카오가 안전하고 신뢰할 수 있는 AI 기술을 만들기 위한 첫걸음을 내디뎠다. 갑자기 튀어나오는 부적절한 답변이나 개인정보 노출 같은 위험을 AI가 스스로 거를 수 있도록 하는, 일종의 ‘안전벨트’ 역할을 할 기술이다.
카카오는 27일, AI 서비스의 안전성과 신뢰성을 검증할 수 있는 자체 개발 ‘AI 가드레일’ 모델인 ‘Kanana Safeguard(카나나 세이프가드)’를 공개했다. 특히 이 기술은 국내 기업 최초로 오픈소스 형태로 배포되며, 누구나 내려받아 사용할 수 있다.
AI가 위험한 발언도 스스로 감지
최근 AI 챗봇이나 이미지 생성 서비스 등 다양한 생성형 AI가 등장하면서, 혐오 표현, 사생활 노출, 저작권 침해 등 부작용 우려도 함께 커지고 있다. 이에 카카오는 AI가 ‘어떤 말이나 요청이 위험한지’ 스스로 판단하고 걸러낼 수 있도록 ‘Kanana Safeguard’ 모델을 개발한 것이다.
이 기술은 카카오가 만든 한국어 특화 언어모델 ‘Kanana’를 기반으로 개발됐다. 한국어와 한국 문화에 맞춘 데이터로 학습돼, 글로벌 모델보다도 더 정확하게 우리말의 맥락을 파악할 수 있는 것이 강점이다. 실제 성능 평가에서도 글로벌 모델을 웃도는 결과를 보였다고 카카오는 설명했다.
3종 모델, 상황별 맞춤 감지 기능
▲ Kanana Safeguard: AI의 답변이나 사용자의 질문에서 혐오, 괴롭힘, 성적 표현 등 유해성 콘텐츠를 감지
▲ Kanana Safeguard-Siren: 개인정보, 저작권 등 법적 문제가 될 수 있는 요청을 탐지
▲ Kanana Safeguard-Prompt: 악의적인 사용자가 AI를 속이려 할 때, 공격적인 프롬프트를 감지
이 모델들은 모두 글로벌 AI 플랫폼 ‘허깅페이스(Hugging Face)’를 통해 무료로 다운로드 받을 수 있으며, 기업이나 개인 모두 자유롭게 사용할 수 있는 아파치 2.0 라이선스로 공개됐다
“안전한 AI 생태계를 위한 시작점”
카카오는 이번 오픈소스를 통해 국내외 AI 생태계 전반에 ‘안전성’을 중심에 두는 문화가 확산되기를 기대하고 있다. 앞으로도 정기적인 업데이트를 통해 모델 성능을 더 높이고, 다양한 위협에도 유연하게 대응할 수 있도록 할 계획이다.
김경훈 카카오 AI Safety 리더는 “AI 기술이 발전할수록 그만큼 사회적 책임도 커진다”며, “AI 윤리와 안전성은 이제 선택이 아니라 필수다. 기술이 사람을 해치지 않도록 먼저 움직이는 것이 우리 역할”이라고 강조했다.