IEEEが提言を発表 AIモデルはどこまで巨大化するのか
IEEE(アイ・トリプルイー)は世界各国の技術専門家が会員として参加しており、さまざまな提言やイベントなどを通じ科学技術の進化へ貢献しており、今回AIモデルに関しての提言を発表いたします。
大規模言語モデル - まるで人間同士がおしゃべりするような会話型の人工知能システムが最近大きな話題になっています。そして、それらはとても大規模で極めて包括的です。
そんなAIモデルはどこまで巨大化するのでしょうか?その答えは、AI言語モデルの開発と、そのアプリケーションの可能性について、大変興味深い展望を示してくれます。
2つの測定方法
専門家がAIの進化について語るとき、通常はモデルのサイズに関する2つの側面に焦点を当てます。すなわち、モデルのトレーニングに使用されるデータ量と、モデルに含まれるパラメーター数の2つです。
たとえば、今話題を集めているChatGPTの前身であるGPT-3は、約45テラバイトのテキストデータでトレーニングされ、1,750億以上のパラメーターを抱えています。他のAIモデルはさらに巨大化しており、大手企業が開発中のモデルの中には、1兆6,000億のパラメーターを超えるものさえあると言われています。
しかし、このことは一体何を意味するのでしょうか?まずは、パラメーターとはどのようなものか詳しく見てみましょう。
パラメーターとは、AIモデルが参照したデータに基づいて出力を生成するために使用される値または変数のことです。たとえば、GPT-3のような言語モデルの出力はテキストです。
IEEEメンバーのイェール・フォックス氏(Yale Fox)は、次のように述べています。「まるでマジックのように見えますが、自然言語モデルは、高度に洗練されたオートコンプリート(自動補完)機能と考えた方が簡単です。一般にはプロンプトと呼ばれていますが、質問形式の入力を提供します。質問が入力されると、モデルは回答をオートコンプリートします。」
その回答は、以前に認識されたパターンに沿って出力されます。大規模言語モデルでは、オートコンプリート機能は格段に複雑化します。それは、より多くのデータで訓練され、より多くのパラメーターを抱えているからです。
「パラメーターの数は、出力の種類の豊富さに影響を与えます。使用されるパラメーターが多いほど、出力の繰り返しは少なくなります。」とフォックス氏は述べています。
ここで次の疑問が浮かびます。たとえば45TBのテキストの情報量はどの程度なのでしょうか?かなり多いのです。1TBのテキストは、ワード文書やPDFなどの一般的な形式で保存された約650万ページのドキュメントに匹敵します。
最適設計
IEEEのシニアメンバーであるエレノア・ネル・ワトソン氏(Eleanor "Nell" Watson)は、次のように述べています。「原則論として、リードからトレーニングするデータが多いほど、多くの種類のモデルでパフォーマンスが向上します。それは、モデルがデータ内で見つかった基本的なパターンや関係についてより多くを学習することができるからです。」
しかし、パラメーターの数は、必ずしもトレーニングデータのサイズと直接関係しているわけではありません。たとえば、開発者は10冊の本で非常に大きなモデルを訓練しても、1,000冊の本で小さなモデルを訓練しても、同様のパフォーマンスを得ることができるでしょう。
「大規模モデルは、トレーニングにかかるコストが急激に上昇するだけでなく、バイアスなどの問題の監査や、説明可能にすることもはるかに困難になります。」とワトソン氏は語っています。ほんの少しのデータに適用するパラメーターが多すぎると、モデルがオーバーフィッティング(過剰適合)を引き起こしやすくなる傾向があります。つまり、ひとつの例があまりにも重要視され、それにより不正確な一般化が行われてしまうのです。
また、必ずしもモデルをトレーニングするデータを大量に集めさえすれば良いというわけでもありません。
「世界中の人々から集めた10TBのツイートは、ウィキペディアからの1TBの事実に基づく知識ほど役に立たないかもしれません。」とフォックス氏は説明しています。
規模の問題
こういった状況は、AIの世界に興味深い疑問を投げかけています。つまり、AIモデルはどこまで巨大化するのかという疑問です。
研究者の指摘によると、モデルのパラメーター数を2倍にしても、性能が2倍になるとは限らないそうです。それなのに、コスト、時間、およびコンピューティングリソースは何倍にも増加する可能性があります。考えられる1つの解決策は、モデルのトレーニングに使用するデータ量を増やすことですが、必要なデータの量は不明であり、またそういった定量が有るのかも不明です。
「したがって、多くの最新モデルにとって最大の阻害要因は、モデルをフル稼働させるのに十分な規模とニュアンスにおいて良質なデータが不足していることであり、能力をフルに活かすことを妨げているとの見解もあります。」とワトソン氏は述べています。
それでは、言語モデルがこの数か月で大きく躍進した理由は何なのでしょうか?
ワトソン氏は、この飛躍はパラメーター数の増加、データのより効果的な利用、トレーニング技術の向上など、複数の要因が重なった結果だと見ています。ChatGPTを裏で支えているエンジニアは、人間の評価者からのフィードバックに基づいてモデルを継続的に微調整し、改善する「ヒューマンインザループ(human-in-the -loop)」アプローチを重視しています。
また、IEEE Computer Magazineの最新記事が指摘しているように、研究者はAIモデルの効率を改善するためにさまざまな手法に取り組んでいます。これには、より優れたハードウェアやソフトウェアの開発や、さまざまなコンピュータアーキテクチャのみならず、テキスト、画像、または映像を組み合わせたマルチモーダルトレーニングデータの使用も含まれています。
「AIモデルのサイズが巨大化する傾向は留まる気配がありません。」と著者は指摘しています。「しかしながら、参入障壁がかなり高いため、このトレンドに乗っていけるのは少数の大手企業や資金の豊富な研究所だけでしょう。」
IEEEについて
IEEEは、世界最大の技術専門家の組織であり、人類に恩恵をもたらす技術の進展に貢献しています。160カ国、40万人以上のエンジニアや技術専門会の会員を擁する非営利団体で、論文誌の発行、国際会議の開催、技術標準化などを行うとともに、諸活動を通じて世界中の工学やその他専門技術職のための信用性の高い「声」として役立っています。
IEEEは、電機・電子工学およびコンピューターサイエンス分野における世界の文献の30%を出版、2,000以上の現行標準を策定し、年間1,800を超える国際会議を開催しています。
詳しくは http://www.ieee.org をご覧ください。