カラクリ、日本語に特化した生成AIガードレール「KARAKURI Guardrails」β版の提供開始

2024/12/26

Today's PICK UP

～日本固有の文化・言語特性に対応した安全なAI活用基盤を実現～

Contents

■開発背景
■KARAKURI Guardrails 概要・特長について

カスタマーサポートDXを推進するカラクリ株式会社は、日本語に特化した生成AIのガードレール※「KARAKURI Guardrails」のβ版の提供を開始したことをお知らせする。日本国内における生成AIの実用化を促進すべく、安心で安全に使える環境をカラクリは実現してきた。
※生成AIのガードレールとは…生成AIアプリケーションにおけるユーザーとのインタラクションを監視・制御するための安全管理システムである。

■開発背景

生成AIの商用利用拡大を後押しした重要な契機の一つは、OpenAI社のChatGPTにおける初期ガードレール対策の導入であった。2022年11月、OpenAIは有害、不適切、または危険な可能性のあるコンテンツを制限する初期のガードレール機能を実装し、生成AIの倫理的使用に関する業界標準を作り始めた。
この先駆的な取り組みを受けて、Google、NVIDIA、AWSなど主要なグローバル企業が相次いでガードレール機能の強化に注力している。しかし、これらのグローバル基準は主に英語圏の文脈に最適化されており、日本の独自の言語的・文化的特性を十分に反映しきれていない。日本語特有の曖昧表現、敬語、文脈依存性などを対応しないままでは、誤った判断や予期せぬリスクを生み出す可能性がある。またガードレールは軽量モデルで且つ高速な検知が求められ、汎用的なモデルでは対応が困難な場合がある。
カラクリは、国産オープンモデルで最高性能を獲得した※大規模言語モデル「KARAKURI LM」で培ったノウハウを活かし、日本独自の言語・文化的要件に応えるAIセキュリティ基準を確立していく。
※1 カラクリ社調べ（2024年1・5・6月それぞれのモデル公開時の調査結果・オープンソースおよびインターネットで情報公開されている国産LLMとして）

■KARAKURI Guardrails 概要・特長について

「KARAKURI Guardrails」は既存のテック各社が提供するガードレール機能（有害コンテンツ検出、プライバシー保護、コンプライアンスチェックなど）に加え、日本語独自の表現や慣習に即した高度な検知・制御を実現する。また企業固有の要件やポリシーに合わせたカスタマイズが可能で、より精緻なリスク管理と安全なコミュニケーション環境を提供する。
【主な機能】
ハルシネーションリスクの検知
AIが事実と異なる情報や根拠のない内容を生成するリスクを検出する。信頼性の高い情報源と照合し、不確実な情報や矛盾する内容を特定することで、誤った情報の拡散を防ぐ。
文脈逸脱の検知
会話やクエリの文脈を理解し、設定された主題や目的から逸脱した応答を識別する。これにより、ユーザーの意図に沿った適切な情報提供を維持し、効率的なコミュニケーションを支援する。
攻撃的行為の検知
悪意のある入力や潜在的な攻撃パターンを識別する。不適切な言葉遣い、システムの脆弱性を突こうとする試み、または悪意のあるコード実行の可能性がある入力を検出し、システムとユーザーの安全を確保する。
個人情報の検知
氏名、住所、電話番号、クレジットカード情報などの機密データを検出し、必要に応じてマスキングまたは削除することで、プライバシー保護とデータセキュリティを強化する。
禁止ワード、禁止トピックの検出
組織のポリシーや法的基準に基づく禁止用語・トピックを検出する。コンプライアンス対応と適切なコンテンツ管理をサポートする。