AI関連

Auto-GPTのすごさを誰でもわかるように0から解説

楠 剛毅(goke)

個人開発から世界を変えるようなプロダクトづくりを目指しています

ChatGPTが登場し、2023年3月にGPT-4が発表されてから、世の中が大きく賑わいました。
2023年4月にOpenAIのサムさんが来日した際には

日本では毎日100万人が利用している

という発言もありました。

100万人という数字が多いのか少ないのかは難しいところですが、
今後日本に拠点を作ろうとしているOpenAIとそれを支援する向きの日本政府の姿勢から見ても特に日本では今後ChatGPTが定着していく可能性は高そうに思えます。

そんな中、新たに登場したAuto-GPTというものが注目を集めています。

Auto-GPTとは

Auto-GPT は、AI が自律的に行​​動できるようにする新しいアプリケーションであり、「自己プロンプト」が可能であり、このテクノロジーに対する私たちの考え方を完全に変えています。

https://www.digitaltrends.com/computing/what-is-auto-gpt/

Auto-GPTについてまとめている上記の記事ではAuto-GPTについて

  • AIが自律的に行動できる
  • 自己プロンプトが可能

と説明しており、ChatGPTとの違いを図に表すと下記のようになります。
ここからは、なぜこの図のようになるのかをデモを交えながら1つずつ解説していきます。

Auto-GPTの実態

一般的に「ChatGPT」とはGPT-4 / 3.5を利用したデモサイトです。
ChatGPTデモサイトとChatGPT APIがごっちゃに語られて紛らわしいことがあるので違いについては下記の記事をご覧ください。

合わせて読みたい

これに対してAuto-GPTとはSignificant Gravitasという開発者によって2023年3月30日にGitHubに投稿されたオープンソースのPythonアプリケーションです。
Githubはこちらから確認できます。

上記の通り、Auto-GPTはGPT-4をベースとして使用しているため、

Auto-GPTはGPT-4よりもすごいモデル!

ということではなく

GPT-4を活用して作成したのが、Auto-GPT

という構図です。

Auto-GPTの動作をデモを交えて解説

ChatGPTを利用する際には「プロンプト」と呼ばれる依頼文を作成する必要があります。
これに対してAuto-GPTは自らプロンプトを作成しながら自律的に機能することができます
Auto-GPT に全体的な目標を指定すると、その目標を達成するために段階的なアクションが実行されます。

実際にAuto-GPTの動作を見ながら解説していきます。
デモ動画は前述のGithubからも確認できます。

役割や目標を設定する

Auto-GPTに入力するのは次の3つの情報です。

  • AIの名前
  • 役割
  • 目標

デモでは「ネットをブラウジングして、次のイベントにぴったりなユニークなオリジナルレシピを考案する」ための「Chef-GPT」というAIを定義しています。そして目標(goal)には

  • 例えばイースターのようなイベントのための型破りなレシピを発明して
  • レシピはファイルに保存して
  • 目標を達成したらシャットダウンして

という3つの目標を設定しています。

Auto-GPTのデモ解説
Auto-GPTのデモ解説

Auto-GPTが答えを探す

条件を設定するとAuto-GPTは答えを探し始めますが、Auto-GPTの特徴の1つは答えを出すまでのプロセスを1つずつ出力する点です。
ChatGPTは「なぜその答えに至ったのか?」という「理由」が示されないので「ブラックボックス」として課題の1つとして認識されていますが、Auto-GPTはそれ自体の処理プロセスを確認することができます。(ただし、Auto-GPTの中でChatGPTを利用しているのでその中まで確認することはできません。)
実際の動作下の動画のような形ですが、動画ではわかりにくい部分があるのでポイントを1つずつ見ていきましょう。

Auto-GPTのデモ

まず、Auto-GPTは目的を達成するための筋道を立てます。
Googleで「次のイベント」と検索してイベント名を取得した上で、そのイベントにマッチしたレシピを作る方向性にしたようです。

Googleで検索した結果ヒットしたページのうち、トップに表示されたページをブラウジングし始めます。
ここで言うブラウジングとは、指定したURLのページからデータを取得することで、「クローリング」とか「スクレイピング」と同意です。
webを検索したりその結果を利用したりする機能はChatGPTには備わっていないので、ここはAuto-GPT独自の挙動ですね。

ブラウジングによって得た情報をもとにそのページのサマリーを作ります。
このページはニュージーランドのイベントをまとめたサイトだったようです。

1つ目の検索結果からは特定のイベント名を抽出できなかったので先ほどのGoogleの検索結果のうち、2番目のページを同じようにブラウジングします。

1番目のページと同じように、2つ目のページもサマリーを作成します。
このページはオークランドのイベントをまとめたページのようです。

どうやら2ページ目からも欲しい情報が取れなかったようです。
ここからが面白いところなのですが、2ページブラウジングしたところでAuto-GPT自身が判断して方針を微調整することにします。
「2023年4月のイベント」という条件に絞って再度Googleで検索することにします。
ここまでの結果を踏まえて、目的に近づいているかを評価した上で調整するという動きができているようです。

方針を修正した上であらためて「2023年4月のイベント」を検索します。
Googleで検索すると結果として複数のページのURLが返ってきました。

ここからがまた面白いところなのですが、Googleの検索結果をそのまま鵜呑みにして検索結果のトップからページをブラウジングしていくのではなく、検索結果の3番目にリストされているカレンダーを含むページを選択しました。
このページがカレンダーを含むかどうかはブラウジングしてみないとわからないはずなので、ページ選定のプロセスである程度データを取得しているものと思われます。

結果として選定したページから「2023年4月22日のアースデー」を抽出することができました。
これをメモリに保存します。

あとはGPTを利用してアースデー向けのレシピを作ってもらうだけです。

プロンプト

ユニークでオリジナルなアースデー向けのサステナブルでエコなレシピを作って

このプロンプトでレシピが完成しました。

今までと何が違うのか

ChatGPTとAuto-GPTの違いを図にしてみます。
Auto-GPTはChatGPTをツールとして活用しつつも、その弱点であったリアルタイムのブラウジングをしながら目標に向かって進んでいきます。
途中、自らがプロンプトを作成してChatGPTに依頼しながら進むので、人間が設定するのははじめの目標だけです。

ChatGPTが話題になった前後で、これからはAIを制御するためのプロンプトが大事だから

「プロンプトの職人」のような役割が必要なのでは?

という話が話題になりました。
いわゆる「プロンプトエンジニア」ですが、AIは誰にでも簡単に扱えるものになるような構造にしよう!という力学が働くはずなので、

対話式のAI = 上手いプロンプトが書ける人しか扱えないもの

にはならず、プロンプトエンジニアは誕生しないか、誕生しても短命なのではと考えていました。

今回紹介したAuto-GPTは、自らプロンプトを作成しながら目標に向かって進んでいくプログラムなので、
イケてるプロンプトすら不要という状態に近づいていると思います。

合わせて読みたい

  • この記事を書いた人

楠 剛毅(goke)

個人開発から世界を変えるようなプロダクトづくりを目指しています

-AI関連