LogoMark.png

GenerativeAI のバックアップ差分(No.1)


#author("2023-02-22T16:31:26+09:00;1970-01-01T18:00:00+09:00","default:inoue.ko","inoue.ko")
*生成系AI
Generative AI
~

生成系AIとは、[[機械学習>MachineLearning]]を前提に、文章、絵画、音楽、プログラムのコード等を生成出力する AIシステムを言います。

生成系AIという言葉が一般的になったことで、従来型AI、つまりパターン認識マシンを「認識系AI」と呼んで、これらを区別するようになりました。

-Discriminative AI:認識系AI / 識別系AI(文字・音声・画像認識等)
-Generative AI:生成系 AI(文章生成・楽曲生成・画像生成)

~

***画像生成について
画像生成 AIには、''Generator''(生成器)と ''CLIP(Contrastive Language–Image Pre-training''(言語-画像事前学習モデル)と呼ばれる2つの[[ニューラルネットワーク>NeuralNetwork]] が利用されています。

概ね、以下のような手順で画像を生成していきます。

-1) Generator が、与えられた潜在変数を画像に変換
-2) CLIP が、与えられたキーフレーズ(呪文)と生成画像を読み込んで、これらのデータ間の「違和感」を「距離」として潜在変数にフィードバック
-3) 潜在変数を変化させながら Generator と CLIP を循環させて「距離」を縮めていく

生成される画像の方向性を決定するのは、絵描き職人としての Generator ではなく、絵と呪文の違和感を測って Generator に演出の指示を出す CLIP です。呪文を与えるのは「人間」なので、人間を含む3者の脳の協働作業によって画像が生成される・・と言えるでしょう。

関連ページ:__[[StableDiffusion]]__,  __[[Midjourney]]__
~


***Transformerについて
Transformer とは、GPT(Generative Pre-trained Transformer)のベースとなっている自然言語処理向けの深層学習モデルで、文章生成を行うようにカスタマイズされた言語モデルです。基本的には機械学習モデルの一種で、従来の「認識系AI」とまったく別物・・というわけではありません。

人間のような「意味を理解した発話」ではありませんが、膨大なデータベースとそれを効率的に扱う Transformer の採用で、従来よりはるかに多彩で複雑な文章を作ることができるようになりました。

AIによる自然言語処理の基本原理は「Word to Vector(言葉をベクトル化する)」というものです。これは「あらゆる言葉を数値パラメータに置き換える」ということで、すべての文章を、パラメータ同士の統計的な関係性の問題としてニューラルネットワークで学習させます。単語の意味や、文章が綴る世界を理解しているわけではなく、単純に、発話に対する関係性の深い(相関の高い)文章を探して並べていく・・という仕組みで動いています。当然、人間が読めば「不自然」な文章を作ることもありますが、学習させるデータを増やすことで、それも解消されていきます。 

言葉(文章)は一般に「順番に処理される」ものです。従来型のシステムでは、データを循環させるネットワークで、単語による意味の変化や文章全体の関係性を捉えていましたが、膨大なデータを処理する課題では負荷が重くなって実用的には問題がありました。これに対して Transformer が採用している Attention というしくみは、単語や文章における注目(Attention)すべき重要な部分、関係性ににのみ重点を置いています。シンプルな方法であるために負荷が軽く、膨大なデータセットでも学習が可能です。「畳み込みネットワーク」や「回帰型ネットワーク」といった従来型の複雑なネットワークを使わずに自然言語処理の精度を高めました。

関連ページ:__[[ChatGPT]]__
~
~

~