生成系AI
Generative AI
生成系AIとは、機械学習を前提に、文章、絵画、音楽、プログラムのコード等を生成出力する AIシステムを言います。
生成系AIという言葉が一般的になったことで、従来型AI、つまりパターン認識マシンを「認識系AI」と呼んで、これらを区別するようになりました。
- Discriminative AI:認識系AI / 識別系AI(文字・音声・画像認識等)
- Generative AI:生成系 AI(文章生成・楽曲生成・画像生成等)
Keywords
Transformer
Transformer とは、GPT(Generative Pre-trained Transformer)などの開発ベースとなっている自然言語処理向けの深層学習モデルで、翻訳、文章作成、画像理解など、あらゆる生成AIの土台になっています。
Google Research が生み出したニューラルネットワークアーキテクチャーで、2017年にオープンソース化されています。基本的には機械学習モデルの一種で、従来の「認識系AI」とまったく別物・・というわけではありません。
従来の言語処理は文章を端から順番に読んでいましたが、Transformer が採用している Attention というしくみは、「文中のどの言葉が重要か」に注目します。長い文章をそのまま逐次的に読むのは大変ですが、重要なキーワードに蛍光ペンを引いて目立たせると、前後のつながりを効率よく把握できる・・というイメージです。
AIによる自然言語処理の基本原理は「Word to Vector(言葉をベクトル化する)」というものです。これは「あらゆる言葉を数値パラメータに置き換える」ということで、すべての文章を、パラメータ同士の統計的な関係性の問題としてニューラルネットワークで学習させます。単語の意味や、文章が綴る世界を理解しているわけではなく、単純に、発話に対する関係性の深い(相関の高い)文章を探して並べていく・・という仕組みで動いています。当然、人間が読めば「不自然」な文章を作ることもありますが、学習させるデータを増やすことで、それも解消されていきます。
- ChatGPT(OpenAI):GPT-4 < Transformer
https://openai.com/blog/chatgpt/ - Gemini(Google):LaMDA < Transformer
https://gemini.google.com/app
LLM(Large Language Model:大規模言語モデル)
Transformerを使って、インターネット上の膨大なテキストを学習したのがLLMです。 ChatGPTなどの「チャットAI」の正体がこれにあたります。質問に答える、物語を書く、プログラミングコードを書くなど、あらゆる知識を持った「図書館+講師」のような存在です。
CLIP(Contrastive Language–Image Pre-training:言語-画像事前学習)
CLIPは、インターネット上の膨大な画像とキャプション(説明文)のペアを学習して、言語と視覚の融合、すなわちマルチモーダルを実現する技術です。
テキストの指示(プロンプト)に基づいて画像を分類・検索したり、画像からテキストを生成したりと、画像認識や生成AI(DALL-E、Stable Diffusionなど)の基盤技術として広く応用されています。
GAN(Generative Adversarial Networks:敵対的生成ネットワーク)
GANとは、画像生成等に用いられる生成モデルの一種で、かつて主流であった手法です。2つのニューラルネットワークを競わせてデータを学習させることから、敵対的生成ネットワークとも呼ばれています。
GANには、Generator(生成器) と Discriminator(識別器)と呼ばれる2つのニューラルネットワーク が利用されています。
- Generator:ランダムなノイズから偽のデータを作り出す
- Discriminator:生成器が作った偽物と本物を比較し「本物か偽物か」を判定
Generator と Discriminatorはそれぞれの目的に従って交互に最適化されます。最終的に Generatorが生成する偽物が、本物と区別できないようなデータになったところで GANの学習は終了します。
拡散モデル(Diffusion Model)
現在、Stable DiffusionやMidjourneyなどで使われている最新の画像生成技術です。上述のGANとは全く異なるアプローチをとります。
データに段階的にノイズを加えて破壊する「拡散過程」と、そのノイズを段階的に取り除いて元に戻す「逆拡散過程」を学習することで、高品質な画像や音声などを生成する生成AI技術です。
- 拡散過程(順方向): 元の画像に少しずつノイズ(通常はガウスノイズ)を加えていき、最終的に完全にランダムなノイズの状態にします。
- 逆拡散過程(逆方向): 学習済みのモデルが、そのノイズの状態から逆向きにノイズを少しずつ除去するプロセスを学習します。
- 生成: 訓練されたモデルは、ランダムなノイズから逆拡散過程をたどることで、元のデータ(高品質な画像など)に似た新しいデータを生成します。
VLM(Vision Language Model:視覚言語モデル)
VLMとは、画像や動画などの視覚情報と、テキストなどの言語情報を同時に理解・処理できるマルチモーダルなAI技術です。テキストのみ扱うLLM(大規模言語モデル)に「視覚」能力が付与された形とも言えます。
従来のAIが単一のデータ(画像のみ、テキストのみ)に特化していたのに対し、VLMは視覚と言語を統合的に扱うことで、人間のように画像の内容を説明したり、テキストの指示で画像を生成したり、画像とテキストを組み合わせた高度なタスクを実行できるのが特徴です。
APPENDIX
関連ページ
