在实际应用场景中,还可能会只做文本问答,不需要输入图片,这种场景是否可以满足?
#23
by
jackleef
- opened
视觉提问是其中一个场景,实际场景可能有时不用视觉提问,只要文本问答。
这个模型是VQA模型,不输入图片可以回答但是效果就没那么好
那说明这还是针对特定的应用场景了,纯文本问答泛化性会受影响。另外,能否使用glm-4-9b-chat的demo把glm-4v-9b跑起来?
不能,这是两个不同的demo,请在我们的github中查看demo
没看到有纯文本问答glm-4v-9b的demo
trans_cli_vision_demo.py 这个,不传入图像
感谢
jackleef
changed discussion status to
closed