李泽宇个人主页

肝s了

multi-model · 01 Nov 2022

自己模型的第一次生成紀念：

[’<EOC>’, ‘<EOC>’, ‘<EOC>’, ‘<EOC>’, ‘<EOC>’, ‘<EOC>’, ‘<EOC>’, ‘<EOC>’, ‘<EOC>’, ‘<EOC>’]

与视觉问答相比，视觉对话不仅要求agent能够参与到一个关于图像的问题中，而且要求agent能够充分利用之前提问和回答的线索。因此，答题者、问题、对话记录和图像之间的互动是产生正确答案的关键

搞一下：https://github.com/CPJKU/EfficientLEAF，可以移植到torch上。

不要闭门造车，多读论文。好不好