![](https://res.cloudinary.com/techfeed/image/fetch/w_280,h_210,c_fill/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2FI%2FISID%2F20231011%2F20231011200900.png)
GPT-4Vができることをまとめてみた
SRANK
こんにちは。ISID 金融ソリューション事業部の若本です。 先日、GPT-4から発展し、画像も扱うことができるGPT-4 with vision(GPT-4V)が発表されました。GPT-4Vは大規模マルチモーダルモデル(LMMs: Large multimodal models)と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。 今日は Microsoft Researchの論文1を中心に、Open AIの発表したSystem Card2も踏まえ、GPT-4Vでできることや苦手とすること、そして実用上の制限について解説します。 GPT-4Vの特徴 ① 画…