汗牛足B vol.5 『生成AIで世界はこう変わる』今井翔太

読書

汗牛足Bは本の紹介を行う「汗牛足(かんぎゅうそく)」のBusiness版である。純粋なビジネス書に限らず、”社会人として読んでよかった本”くらいの緩い範囲で選書して紹介していきたい。

今回はAI研究で著名な松尾研究室所属の若手研究者によるこの本。


汗牛足B vol.5 (2024.6.23発行)
今井翔太 (2024)『生成AIで世界はこう変わる』SBクリエイティブ


★本書を読んでわかること

  • 生成AIの歴史的な意味
  • 生成AIの主要技術
  • 生成AIが社会にもたらす影響

★サマリー

「生成AI革命」という歴史の転換点

  • 生成AIは新たに文章や画像、音声などを作成できる人工知能技術の一種で、ディープラーニングという技術を用いている
  • ディープラーニングの手法は一般的に識別モデルと生成モデルに大別され、生成AIは後者のアプローチに属するもの
  • 「生成AI」という言葉自体は学術用語ではなく、文章生成AIや画像生成AIなどをまとめて呼称するために特にメディアが使い始めた
  • 生成AIが学習するデータはもともとは人間が生み出したデータであるが、生成AIは今まで人間が生み出したことがないものも生成できる
  • 生成AIは様々な領域で応用が可能な「汎用技術(General Purpose Technology: GPT)」の一種と考えられる。
  • 生成AIは人間の生産活動を根本から変え、史上最速で社会変化をもたらしつつある
  • AI研究者の究極目標は、人間の知能と同じく汎用的な知能処理ができる人工知能(Artificial General Inteligence: AGI)の実現であり、将来的なAGIの実現はほぼ確定的と見られている

生成AIの主要技術

2012年ごろから生成AIの技術基盤ともなっているディープラーニングを中心とした第3次AIブームが始まった。そして、生成AIの登場をもって第4次AIブームが到来した。

機械学習の手法は、教師あり学習、教師なし学習、強化学習、自己教師あり学習の4つに大別される。自己教師あり学習は最近の生成AIで主流となっているもので、教師データを人間が作成せず、機械が自動的に生成する。

また、現在の生成AIの中心技術として、特に言語生成AIに使用される「言語モデル」と画像生成AIに使用される「拡散モデル」が挙げられる。ChatGPTのようなAIはニューラルネットワークを用いて実装された大規模言語モデル(Large Language Model)により実現しているが、これは生成される単語・文章に確率を割り当てるモデルである。

様々な言語の文章を文字数にして数兆字レベルで学習させると、かなり高性能な言語モデルができる。学習に用いる文章はWeb上で収集するが、暴力的な言説やデマ、倫理に反する内容なども含まれており人間にとって好ましい回答をさせるのは容易ではない。

この問題をChatGPTでは画期的な方法で解決している。それが、「教師ありファインチューニング」と「人間からのフィードバックに基づく強化学習」である。以下に注目すべきトピックスを掲げる。

  • 教師ありファインチューニング:何らかのプロンプトに対して人間が理想的な回答をつくり、AIがそれを正解データとして学習する手法。人間がデータを大量に用意できず、あらゆる入力に対応するのは不可能
  • 人間からのフィードバックに基づく強化学習(Reinforcement Learning From Human Feedback, RLHF):言語モデルにいくつか回答を作成させたうえで、人間にとっての好ましさに応じて人間がランク付けを行う。ランク付けした回答を使って報酬モデルを作成する。そのうえで、言語モデルは報酬モデルから得た報酬を使って強化学習を行う
  • トランスフォーマー:AI研究において最も注目・利用されているニューラルネットワーク構造。「注意機構」を用いることで、長い文章の入力であっても文の初めの単語と後半の単語の関係を捉えて出力に反映できる
  • スケーリング則:トランスフォーマーを使った言語モデルの性能は、モデルサイズ(パラメータ数)、学習に使用するデータセットの量、学習に使う計算量で決まるという法則。人工知能研究の最前線が、「いかに賢いアルゴリズムを設計するか」という問題から、「いかにお金をかけられるか」という問題に変わってしまったのは、スケーリング則によって言語モデルの性能がほぼ決まってしまうため。
  • 能力創発:言語モデルを大規模化することで、小型のモデルにはなかったような能力が突然現れること。研究途上で分かっていないことも多い。
  • プロンプトエンジニアリング:生成AIに対して与えるプロンプトの方法論。本命の入力とは別に出力の例を含めたプロンプトを入力する「少数例プロンプティング」や、段階的に出力を考えるようなプロンプトを与える「思考の連鎖プロンプティング」がある
  • text2image (t2i):文章により一から画像を生成する手法。動画を生成する「text2video」と呼ばれる手法も発展している
  • 拡散モデル:動画像生成AIの基盤技術。「ノイズ画像から徐々にノイズを除去して、生成したい画像に近づけていく」という手法を用いている
  • 条件付き生成:拡散モデルにおいて生成されるものに何らかの条件(文章や画像など)をつけて生成することで、画像と言語の関係を学習した「CLIP」と呼ばれるモデルを拡散モデルに追加するのが一般的
  • 音声の生成AIでは、言語におけるトランスフォーマーや動画像における拡散モデルのような支配的な技術はないが、言語モデルや拡散モデルなどを組み合わせることで著しい発展を遂げている
  • マルチモーダル:単一のモデルで入力と出力において複数のモダリティ(データの様式、言語、画像、音声など)を扱うモデル
  • 検索によって強化した生成(Retrieval Augmented Generation, RAG):言語生成AIに対して、外部の知識を参照させて回答させる技術で、AIが使う検索エンジンの技術とも言える。BingチャットやGoogle Bard、ChatGPTのBrouse with Bingでは既に実装されおり、Web上の才心情を参照しながら回答する。RAGを用いれば自分や組織だけが持っている知識データを用いて、オリジナルの知識を持った言語生成AIを構築することができる

AIによって消える仕事・残る仕事

高学歴で高いスキルを身に着けている人が就くような高賃金の仕事であるほど、コンピュータ/AIによる自動化の影響を受ける可能性が高い。一方、人間が言語で表現してプログラミングコードに落とし込むのが難しい動作は、そもそも機械化のしようがない。

  • モラベックのパラドックス:AIにとっては、人間がよく考えて行う高度な作業は簡単だが、人間が特に何も考えず簡単にこなしていることは難しい、ということ。AIにとっては、服を畳んだり箸を使ったりするのは難しく、将棋や囲碁は容易。
  • 労働補完型/労働置換型:前者は人間の労働を補助し、生産性を上げるもの。後者は人間の労働を置き換えて人間が介在する余地をなくすもの

AIが問い直す「創作」の価値

生成AI登場以降の文化芸術や創作活動について、特筆すべき点は次の4点。

  1. 特別な創作能力がない人間にも、質の高いコンテンツを生み出せるようになった
  2. 「AIによって生成されている」ことが意味を持つ、あるいはAIによってはじめて成立する文化コンテンツが生まれる
  3. 創作能力を持っている人は、その能力と生成AIを組み合わせることで、一般の生成AIユーザーより質が高いコンテンツを、今まで以上のスピードで創作できる
  4. 生成AIの登場により、人間が創作物を評価する視点・価値観が変わりつつあり表面上のクオリティだけでなく、「AIによって生成されたかどうか」が作品の評価に影響を与える可能性がある

生成AIとともに歩む人類の未来

  • AIによる声の学習や生成行為については、著作権だけでなく肖像権なども含めた複雑な要素があり、議論が続いている状況
  • AIの学習について、法的な一括規制は難しいとしても、学習に使用されたくないという希望を受け入れ、学習データから除外する努力を開発側から行うことは検討されるべき
  • 現在の生成AIでは、出力から学習に使用したデータの出典を特定する機能はないが、その需要はある
  • 意外と近い未来には、想像もできないような機械の知能と、それによって変革された社会が実現するのではないか

★ボクのコメント

私がChatGPTの存在を初めて知ったのは2022年の12月、NYTのポッドキャストを何気なく聞いていた時だった。話し手がやや興奮気味に、マジで凄いAIが出たと熱く語り、シェイクスピア風の文体で物語を作ってくれというと全く自然な文章をたたき出してくる、とか嬉しそうにいろいろしゃべっていた。それから1か月もすると、学校で生徒がレポートを書くのにChatGPTを使って教育の現場で問題になっている、というのが話題になっていた。もちろん、これはアメリカの話で、そのころ日本でChatGPTの存在を知っている人は少数派だったと思う。日本の大手メディアがChatGPTを取り上げ始めたのは、私の記憶では2023年の2月くらいになってからだった。私にとって、ChatGPTの登場は日本の科学・技術系ジャーナリズムの貧弱さを痛感した出来事でもあったのだ。

ChatGPTに代表されるような生成AIを取り上げる新書は?というと、これまたかなり動きが鈍かった。そもそも新書なんて所詮人文系がメインと言われればそうなのだが、それなりに第一線でAI分野に通じている人が書いたもので言うと、多分本書が最初に出たものと言っていいのではないか。出版は2024年1月。ChatGPTリリースから1年以上が経ち、NVIDIAに代表される半導体メーカーの株が目覚ましく上がっていた時期である。

とはいえ、私自身生成AIには無知であったことを反省し、今回手に取った。これで分かったかと言われると、全く深い理解をしているわけではない。しかし、生成AIの隆盛は、間違いなく人類史におけるターニングポイントの一つになるだろうと感じている。

本書の中でも触れられていたが、高度な知的生産性を要するとされる仕事の方が、単純な労働よりも生成AIの影響をもろに受けやすいと考えられる。一ホワイトカラー労働者としては、生成AIを使いこなし、自らの生産性を上げる側の人間でありたいと考えるのは自然な発想だろう。逆に、すでに生成AIで代替可能な仕事をしているなら、その仕事で今後も食っていけるとは考えにくい。「AI人材」という名のAIをめぐるポジショニング争いが熾烈化する一方で、そうした世界とは無縁な人々も一定程度存在する。

生成AIによって能力をアーギュメントされた「AIサイボーグ」とでも言うべき人々と、生成AIとは関わりを持たない「野蛮人」(こう言っては失礼だが)に二極化していく、とすれば、何かよくないことが起こっているようにも感じられるのだが、では何が良くないのかと言われると、明確な根拠がないことに気づく。

*1それでも、漠然とした不安が胸をよぎる。技術の進歩は常に新たな可能性を開く一方で、私たちの社会に未曾有の変化をもたらす。その変化が人々にとってプラスに働くのか、それともマイナスに働くのか、今はまだ判断がつかない。

この不安の一因は、生成AIが持つ圧倒的な能力にあるのかもしれない。例えば、私たちが日常的に行っている多くの仕事が、AIによって代替される可能性があるという事実。これは単なる技術革新ではなく、社会の構造そのものを揺るがす変化だ。生成AIが普及することで、労働市場がどのように変わるのか、また私たちの働き方や生き方がどのように変わるのか、考えるべきことは多い。

一方で、生成AIは多くの新しいチャンスを提供してくれる。例えば、クリエイティブな分野では、AIが新しいアイデアを提供したり、作品を生成したりすることで、人間の創造力をさらに引き出すことができるかもしれない。医療分野では、AIが診断や治療の精度を高め、より多くの人々が適切な医療を受けられるようになるだろう。教育分野でも、AIが個々の生徒に最適化された学習プランを提供することで、学びの質を向上させる可能性がある。

このように、生成AIの影響は多岐にわたる。しかし、その一方で、生成AIに依存しすぎることのリスクも考慮する必要がある。AIが生成する情報や意見に頼りすぎることで、人間自身の判断力や批判的思考が鈍る危険性がある。また、生成AIの発展が進むことで、技術格差が拡大し、社会の分断が深まる可能性も否定できない。

本書を読んで感じたのは、生成AIが私たちの社会に及ぼす影響を正確に理解し、その恩恵を最大限に享受するためには、私たち自身が学び続ける必要があるということだ。技術の進化をただ受け入れるのではなく、それがもたらす変化を理解し、自分自身の役割を見つけることが求められる。

生成AIは、人類史における重要な転換点である。その進化をどのように活用し、どのように共存していくかは、私たち次第だ。技術の進歩と共に、人間らしさを失わないために何が必要かを考え続けることが、私たちの未来をより良いものにするための鍵となるだろう。本書を手に取ったことで、その一歩を踏み出すきっかけを得たと感じている。*2

※*1~*2はChatGPTが文章の続きを考えたもの。私の言いたいことは大体書いてあったのでそのまま採用した。

コメント