見出し画像

GPT-4oを用いてマルチモーダルAIを試してみた

こんにちは!
NECネッツエスアイ データ分析チームの久保寺です!

▲趣味でイラスト描いてます🎨🖌️

今回は、以前紹介したRAGを用いたZoom FAQシステムの記事(https://note.nesic.co.jp/n/nab30fbf22cee)に続いて、データ分析チームで技術検証している生成AI技術の一種である、マルチモーダルAIについてご紹介します✨


前回の記事はこちら!


マルチモーダルAIとは…

マルチモーダルAIは、テキスト、画像、音声、動画などの複数の情報を同時に処理することができるAIです🖼️🎵

従来の生成AIでは、テキスト情報しか理解することができませんでしたが、マルチモーダルAI技術を取り入れることで、画像や音声など様々なデータに対する理解が可能になり、より多くの情報を理解することができるようになります。

▲テキスト情報だけではなく、画像、音声データを理解して回答を生成してくれます🤖

GPT-4oを用いたマルチモーダルAIシステム

以前の記事でもご紹介しましたが、当社では社内のコミュニケーションツールとして利用しているSlackのチャンネル上に生成AIの各種機能を搭載したボタンを実装しています!

今回は、上記で説明したマルチモーダル機能を搭載したマルチモーダルAIシステムを作ってみました。

▲マルチモダール機能を搭載したシステムの、Slack上での利用イメージです!

システム構成

利用したコンポーネント

Azure OpenAI Service

  • Azure OpenAI Serviceは、Microsoft Azureのクラウドプラットフォーム上で提供される生成AIサービスです。
    OpenAIが開発した自然言語処理モデル(例:GPT-4やChatGPT)を利用することができます。

GPT-4o

  • GPT-4oは、OpenAIが開発した大規模言語モデルです。GPT-4oには、自然言語処理と画像認識の機能が組み込まれています。
    入力として与えられた画像に関する質問に対して、テキスト形式で回答を生成することができます。


マルチモーダルを試してみた

上記で構築したマルチモーダルAIシステムを使って実際にどのようなことができるのか試してみました!

計算問題を解いてもらったり、イラストからプログラムを作ったり、いくつかご紹介させていただきます!

計算問題を解いてもらった

画像を理解できるマルチモーダルAI技術と、数式を解くことができる生成AI技術を組み合わせれば、計算問題を解くことができるでは?と思い、試しに解いてもらいました!

途中式も含めて回答してくれるので、学生時代に使えていれば大活躍間違い無しだったかもしれませんね😉悪用は厳禁ですよ🚫

▲全問正解です🎉皆さんは正解できましたか⁉️

パワポのデザインを添削してもらった

デザインには自信がない…😣という人にお勧めなのが、このパワポのデザインを添削してもらう機能です。

修正が必要なポイントなどをしっかり回答してくれるので、便利だと思います!


▲しっかりアドバイスをしてくれます🤖

オフィスの改善点聞いてみた

当社のオフィス環境が生成AIから見てどのような改善点があるのか聞いてみました!
結果として、画像内のオフィスから様々な改善点を教えてくれました。
しっかりとプロンプトエンジニアリングを施せばより専門的な回答を取得することができるかもしれません🤔


Zoomの使い方聞いてみた

Zoomの使い方を聞いてみました。
画像内の赤い丸を囲った箇所について質問してみます。
すると、赤い丸を付けた個所を見事に理解し、正しい回答を生成してくれました!


ホワイトボードに書いたイラストからプログラムを作ってもらった

生成AIのプログラムを生成する機能と、マルチモーダルの画像を認識する機能を組み合わせて、画像からプログラムを作ってもらいました!
まず、ホワイトボードにUIのイラストを作成します。
次に、作成したイラストを撮影し、Slackにアップロードします。

作成されたHTMLファイルからWebページを開いてみます。
確認してみると、ホワイトボードで描いたデザインを考慮したWebページが作成されていますね!

▲手書きのデザインからWebサイトのデザインを生成することができました🖊️🖥️

今後の展望

今回はマルチモーダル機能を扱えるGPT-4oを用いて、画像から様々な質問に対し、回答を得ることができました🌟
所感として、マルチモーダルAIの有用性は非常に大きいものになるような気がしました。デザインからプログラムを作成したり、画像内の指定した箇所に関する質問に回答してもらえるなど、これまで以上にユーザーにとって利用しやすいAIになってきているような気がしました🤖

ただ、現状のマルチモーダルAIの精度では高精度な画像認識ができるわけではないので、継続的に利用してみて活用できるユースケースを見極めていく必要があると思います。
今後は、上記のマルチモーダル機能を手軽に扱えるようにSlackボタンに随時追加していきたいと考えています✨

次回もお楽しみに!

※ Zoom及びZoom名称を含むサービスはZoom Video Communications, Inc.が提供するサービスです。
※ 記載されている会社名および製品名は、各社の商標または登録商標です。

最後までお読みいただきありがとうございます!