GPT-4Vができることをまとめてみた

GPT-4Vができることをまとめてみた
SRANK

こんにちは。ISID 金融ソリューション事業部の若本です。先日、GPT-4から発展し、画像も扱うことができるGPT-4 with vision（GPT-4V）が発表されました。GPT-4Vは大規模マルチモーダルモデル（LMMs: Large multimodal models）と呼ばれるAIモデルの一種であり、GPT-4の入力として「画像」を拡張したものになります。今日は Microsoft Researchの論文1を中心に、Open AIの発表したSystem Card2も踏まえ、GPT-4Vでできることや苦手とすること、そして実用上の制限について解説します。 GPT-4Vの特徴 ① 画…

tech.isid.co.jp 2 years ago

Open page

https://tech.isid.co.jp/entry/explaination_gpt4v