アリババクラウド、AI画像生成モデル「通義万相」を発表
2023/7/10
アリババクラウドは、上海で開催中の「世界人工知能会議2023」で最新のAI画像生成モデル「通義万相(Tongyi Wanxiang)」を発表した。
通義万相は、さまざまなタスクを処理することに優れている生成AIモデルだという。中国語や英語のテキストプロンプトに応答し、水彩画、油彩画、中国画、アニメーション、スケッチ、フラットイラスト、3D漫画など、多様なスタイルの画像を生成する。また、このモデルは、任意の画像を類似したスタイルの新しい画像に変換したり、スタイル転送によって画像をスタイリッシュに変化させたりすることが可能だ。これにより、元の画像の内容を保持しながら、別の画像の視覚スタイルを適用することができる。アリババクラウドの知識整理、視覚AI、自然言語処理(NLP)における先駆的なテクノロジーを搭載した本モデルは、多言語素材を活用してトレーニングを強化している。意味理解能力が高く、文脈に即したより正確な画像生成を実現する。さらに、高解像度の拡散プロセスをS/N比(signal-to-noise ratio)に基づいて最適化することで、このモデルは構図の正確さと鮮明なディテールをバランスよく保ちながら、高コントラストで視覚的に美しい背景画像を生成する能力を強化している。アリババクラウド独自の大型モデルであるComposerを使用して開発され、画像合成の品質と創造性を維持しながら、空間レイアウトやパレットなどの最終的な画像出力をより細かく制御することができるとのことだ。
通義万相によるテキストから画像への生成例: