アリババクラウド、AI画像生成モデル「通義万相」を発表

アリババクラウドは、上海で開催中の「世界人工知能会議2023」で最新のAI画像生成モデル「通義万相(Tongyi Wanxiang)」を発表した。

アリババクラウドはさらに、言語、視覚、音声領域にわたる複雑で専門的なAIタスクの達成を支援するために設計された汎用フレームワークである「ModelScopeGPT(モデルスコープGPT)」を発表した。ModelScopeは、アリババクラウドが昨年導入したオープンソースのモデル・アズ・ア・サービスプラットフォームであり、900以上のAIモデルを搭載している。

通義万相は、さまざまなタスクを処理することに優れている生成AIモデルだという。中国語や英語のテキストプロンプトに応答し、水彩画、油彩画、中国画、アニメーション、スケッチ、フラットイラスト、3D漫画など、多様なスタイルの画像を生成する。また、このモデルは、任意の画像を類似したスタイルの新しい画像に変換したり、スタイル転送によって画像をスタイリッシュに変化させたりすることが可能だ。これにより、元の画像の内容を保持しながら、別の画像の視覚スタイルを適用することができる。アリババクラウドの知識整理、視覚AI、自然言語処理(NLP)における先駆的なテクノロジーを搭載した本モデルは、多言語素材を活用してトレーニングを強化している。意味理解能力が高く、文脈に即したより正確な画像生成を実現する。さらに、高解像度の拡散プロセスをS/N比(signal-to-noise ratio)に基づいて最適化することで、このモデルは構図の正確さと鮮明なディテールをバランスよく保ちながら、高コントラストで視覚的に美しい背景画像を生成する能力を強化している。アリババクラウド独自の大型モデルであるComposerを使用して開発され、画像合成の品質と創造性を維持しながら、空間レイアウトやパレットなどの最終的な画像出力をより細かく制御することができるとのことだ。

通義万相によるテキストから画像への生成例:
出典元:プレスリリース
出典元:プレスリリース
出典元:プレスリリース
出典元:プレスリリース
ModelScopeGPTは、LLMをコントローラとして使用し、ModelScopeオープンソースコミュニティ内の広範なドメイン固有のエキスパートモデルに接続する。豊富なモデル・アズ・ア・サービスエコシステム内に構築されたModelScopeGPTは、アリババクラウドが提供するさまざまなAI機能を活用している。企業や開発者は、ModelScopeGPTを無料で利用し、多言語ビデオの開発など、ユーザーのリクエストに基づいて高度なAIタスクを実行するための最適なモデルにアクセスし、実行することができる。

Article Tags

カテゴリ

Special Features

連載特集
See More