카카오가 국내 기업 최초로 생성형 인공지능(AI)의 안전성과 신뢰성을 검증할 수 있는 ‘AI 가드레일’ 모델을 만들어 무료로 배포한다. AI 가드레일은 AI가 혐오 표현이나 개인 정보 노출 같은 문제를 일으키지 않도록 미리 설정해 주는 기술·제도적 안전장치 소프트웨어다.
카카오는 자사가 개발한 AI 가드레일 모델 ‘카나나 세이프가드’ 3종을 27일 공개했다. 개발자들이 AI 모델을 만들 때 이를 적용하면, AI 모델이 사용자와 대화 중 유해 콘텐츠를 식별해 차단한다.
이번에 공개된 모델 3종은 위험 유형에 따라 유해하거나 위험한 요소를 식별할 수 있도록 설계됐다. 카나나 세이프가드는 사용자의 발화 또는 AI 답변에서 증오나 괴롭힘, 성적 콘텐츠 등에 대한 유해성을 탐지한다. ‘카나나 세이프가드 사이렌’은 개인 정보나 지식재산권 등 법적 측면에서 주의가 필요한 요청을 식별하고, ‘카나나 세이프가드 프롬프트’는 AI를 악용하려는 사용자 공격을 감지할 수 있다.
카카오는 ‘카나나 세이프가드’를 오픈소스 플랫폼인 허깅페이스를 통해 배포할 예정이다. 개발자들은 여기서 ‘카나나 세이프가드’를 내려받아 사용하면 된다. 카카오는 “안전한 AI 생태계 구축에 기여하기 위해 상업적 이용과 수정 및 재배포 등을 허용했다”고 했다.