カラクリ、日本語に特化した生成AIガードレール「KARAKURI Guardrails」β版の提供開始
2024/12/26
~日本固有の文化・言語特性に対応した安全なAI活用基盤を実現~
Contents
※生成AIのガードレールとは…生成AIアプリケーションにおけるユーザーとのインタラクションを監視・制御するための安全管理システムである。
■開発背景
この先駆的な取り組みを受けて、Google、NVIDIA、AWSなど主要なグローバル企業が相次いでガードレール機能の強化に注力している。しかし、これらのグローバル基準は主に英語圏の文脈に最適化されており、日本の独自の言語的・文化的特性を十分に反映しきれていない。日本語特有の曖昧表現、敬語、文脈依存性などを対応しないままでは、誤った判断や予期せぬリスクを生み出す可能性がある。またガードレールは軽量モデルで且つ高速な検知が求められ、汎用的なモデルでは対応が困難な場合がある。
カラクリは、国産オープンモデルで最高性能を獲得した※大規模言語モデル「KARAKURI LM」で培ったノウハウを活かし、日本独自の言語・文化的要件に応えるAIセキュリティ基準を確立していく。
※1 カラクリ社調べ(2024年1・5・6月それぞれのモデル公開時の調査結果・オープンソースおよびインターネットで情報公開されている国産LLMとして)
■KARAKURI Guardrails 概要・特長について
【主な機能】
ハルシネーションリスクの検知
AIが事実と異なる情報や根拠のない内容を生成するリスクを検出する。信頼性の高い情報源と照合し、不確実な情報や矛盾する内容を特定することで、誤った情報の拡散を防ぐ。
文脈逸脱の検知
会話やクエリの文脈を理解し、設定された主題や目的から逸脱した応答を識別する。これにより、ユーザーの意図に沿った適切な情報提供を維持し、効率的なコミュニケーションを支援する。
攻撃的行為の検知
悪意のある入力や潜在的な攻撃パターンを識別する。不適切な言葉遣い、システムの脆弱性を突こうとする試み、または悪意のあるコード実行の可能性がある入力を検出し、システムとユーザーの安全を確保する。
個人情報の検知
氏名、住所、電話番号、クレジットカード情報などの機密データを検出し、必要に応じてマスキングまたは削除することで、プライバシー保護とデータセキュリティを強化する。
禁止ワード、禁止トピックの検出
組織のポリシーや法的基準に基づく禁止用語・トピックを検出する。コンプライアンス対応と適切なコンテンツ管理をサポートする。