CNET Korea 뉴스 비즈니스

카카오 “AI도 안전이 최우선”…한국어 특화 ‘AI 가드레일’ 공개

생성형 AI의 위험 감지하는 ‘Kanana Safeguard’…국내 기업 최초, 핵심 기술 오픈소스로 무료 공개

김태훈 기자

2025년 05월 27일 03:36 PM

카카오에서 AI 안전성 검증을 위한 가드레일 모델 ‘Kanana Safeguard’를 공개했다(사진=카카오).

(씨넷코리아=김태훈 기자) 생성형 AI가 빠르게 퍼지고 있는 가운데, 카카오가 안전하고 신뢰할 수 있는 AI 기술을 만들기 위한 첫걸음을 내디뎠다. 갑자기 튀어나오는 부적절한 답변이나 개인정보 노출 같은 위험을 AI가 스스로 거를 수 있도록 하는, 일종의 ‘안전벨트’ 역할을 할 기술이다.

카카오는 27일, AI 서비스의 안전성과 신뢰성을 검증할 수 있는 자체 개발 ‘AI 가드레일’ 모델인 ‘Kanana Safeguard(카나나 세이프가드)’를 공개했다. 특히 이 기술은 국내 기업 최초로 오픈소스 형태로 배포되며, 누구나 내려받아 사용할 수 있다.

AI가 위험한 발언도 스스로 감지

최근 AI 챗봇이나 이미지 생성 서비스 등 다양한 생성형 AI가 등장하면서, 혐오 표현, 사생활 노출, 저작권 침해 등 부작용 우려도 함께 커지고 있다. 이에 카카오는 AI가 ‘어떤 말이나 요청이 위험한지’ 스스로 판단하고 걸러낼 수 있도록 ‘Kanana Safeguard’ 모델을 개발한 것이다.

이 기술은 카카오가 만든 한국어 특화 언어모델 ‘Kanana’를 기반으로 개발됐다. 한국어와 한국 문화에 맞춘 데이터로 학습돼, 글로벌 모델보다도 더 정확하게 우리말의 맥락을 파악할 수 있는 것이 강점이다. 실제 성능 평가에서도 글로벌 모델을 웃도는 결과를 보였다고 카카오는 설명했다.

3종 모델, 상황별 맞춤 감지 기능

▲ Kanana Safeguard: AI의 답변이나 사용자의 질문에서 혐오, 괴롭힘, 성적 표현 등 유해성 콘텐츠를 감지

▲ Kanana Safeguard-Siren: 개인정보, 저작권 등 법적 문제가 될 수 있는 요청을 탐지

▲ Kanana Safeguard-Prompt: 악의적인 사용자가 AI를 속이려 할 때, 공격적인 프롬프트를 감지

이 모델들은 모두 글로벌 AI 플랫폼 ‘허깅페이스(Hugging Face)’를 통해 무료로 다운로드 받을 수 있으며, 기업이나 개인 모두 자유롭게 사용할 수 있는 아파치 2.0 라이선스로 공개됐다

“안전한 AI 생태계를 위한 시작점”

카카오는 이번 오픈소스를 통해 국내외 AI 생태계 전반에 ‘안전성’을 중심에 두는 문화가 확산되기를 기대하고 있다. 앞으로도 정기적인 업데이트를 통해 모델 성능을 더 높이고, 다양한 위협에도 유연하게 대응할 수 있도록 할 계획이다.

김경훈 카카오 AI Safety 리더는 “AI 기술이 발전할수록 그만큼 사회적 책임도 커진다”며, “AI 윤리와 안전성은 이제 선택이 아니라 필수다. 기술이 사람을 해치지 않도록 먼저 움직이는 것이 우리 역할”이라고 강조했다.