情報処理学会 インタラクション2025

文献情報

タイトル
GazeLLM: 視覚情報を利用するマルチモーダル LLM
著者
  • 暦本 純一(東大/ソニーCSL)
アブストラクト
説明画像

大規模言語モデル(LLM)は,テキストだけでなく画像,音声,動画も処理できるマルチモーダル LLM(MLLM)へと発展している.MLLM が動画像と音声を通じて人間の活動を理解することで,人間 の活動支援,実世界エージェント,ロボットや他者への技能移転など,多くのヒューマンコンピュータイ ンタラクション応用が可能になる.しかし,高解像度で長時間の動画像の入力は LLM の記憶容量と処理 時間を大きく消費してしまう.動画像の解像度を下げると,多くの場合必要とされる理解力が損なわれて しまう.本論文では,一人称視点映像の MLLM による分析を最適化するために,視線情報に基づいて一 人称視点映像を分割する方法を提案する.視線が集中する画像領域を選択的に処理することで,全画像と 比較して約 1/10 の画素数で,全画像の場合と同等またはそれ以上の理解を達成できることを示し,人間の 技能を AI が解釈・活用するための MLLM の効率的な解決策を提供する.

雑誌名
インタラクション2025論文集
© 2025 情報処理学会
論文ID
INT25016
ページ
139-148
発行日
2025年2月23日
発行所
発行人 一般社団法人 情報処理学会
住所 〒101-0062 東京都千代田区神田駿河台一丁目5番地 化学会館4F
TEL. 東京 (03) 3518-8374 (代表)
E-mail