ブレインパッド、マルチモーダルAIを用いて「Google Cloud Next Tokyo '23」向けに開発・展示したデモの技術解説を公開

「視覚を持ったLLM」が画像の意味を理解して、瞬時に意味の近い画像を検索

2024-02-09 15:30

　株式会社ブレインパッドは、2023年11月に開催された Google Cloud の旗艦イベント「Google Cloud Next Tokyo '23」にて、 Google Cloud デモブースに展示されたデモの開発に協力いたしました。本日は、当社のオウンドメディアにおいて、このデモに関する技術解説ブログを公開したことを発表いたします。
　当社が開発に協力したこのデモは、「視覚を持った LLM（*1）」を用いたマルチモーダルAI（*2）に関するもので、「集英社『ONE PIECE』で体験するマルチモーダルAI」と銘打たれて展示されました。

●「集英社『ONE PIECE』で体験するマルチモーダルAI」のデモの様子は、 Google Cloud Japan から公開されている以下の動画をご覧ください。

Google Cloud Japan 公式 YouTube「集英社『ONE PIECE』で体験するマルチモーダル AI」（2023/12/11 公開）

●ブレインパッドによる技術解説ブログ
公開直後の新技術を1週間で実装！
開発メンバーに聞く「マルチモーダルAI」デモ開発の技術解説と舞台裏
https://blog.brainpad.co.jp/entry/2024/02/09/113359

　このたび開発したマルチモーダルAIデモは、カメラで人間の写真を撮ると、予め登録された数万点に及ぶマンガの画像データから、その写真と意味の近い画像を瞬時に検索することができるものです。
　デモは、画像の意味を文章で表現するる Vertex AI Imagen 2 と、数字の羅列で画像の意味を表現する Vertex AI Embedding for Multimodal 、 Vertex AI Vector Search の機能を用いて開発されており、AIが、写真が表すものを人間のように理解して、似ている画像を検索できるように開発されています。
　この技術を応用することにより、人間が、タグやラベルなどのデータの識別に役立つ情報を事前に付しておかずとも、画像や音声、文章などに代表される非構造化データをスピーディに活用できるようになることが期待されます。

　今後もブレインパッドは、高度なテクノロジーの民主化を通じて、データ活用の普及を促進してまいります。

（*1）「LLM（Large Language Models、大規模言語モデル）」とは、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルのこと。
（*2）「マルチモーダルAI」とは、異なる種類の情報をまとめて扱うAIのこと。画像・音・テキストなど単一種類の情報から学習するのではなく、複数の種類の情報を一緒に学習して、より高度な情報処理を行う。

ご参考情報

●株式会社ブレインパッドについて　https://www.brainpad.co.jp/
（東京証券取引所プライム市場：証券コード 3655）
本社所在地：東京都港区六本木三丁目1番1号六本木ティーキューブ
設立：2004年3月
代表者：代表取締役社長 CEO 関口朋宏
資本金：597百万円（2023年6月30日現在）
従業員数：590名（連結、2023年6月30日現在）
事業内容：データ活用を通じて企業の経営改善を支援するプロフェッショナルサービス、プロダクトサービス