在实际应用场景中，还可能会只做文本问答，不需要输入图片，这种场景是否可以满足？

#23

by jackleef - opened Jun 20, 2024

Jun 20, 2024

视觉提问是其中一个场景，实际场景可能有时不用视觉提问，只要文本问答。

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org Jun 20, 2024

这个模型是VQA模型，不输入图片可以回答但是效果就没那么好

Jun 20, 2024

那说明这还是针对特定的应用场景了，纯文本问答泛化性会受影响。另外，能否使用glm-4-9b-chat的demo把glm-4v-9b跑起来？

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org Jun 20, 2024

不能，这是两个不同的demo，请在我们的github中查看demo

Jun 20, 2024

没看到有纯文本问答glm-4v-9b的demo

Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University org Jun 20, 2024

trans_cli_vision_demo.py 这个，不传入图像

Jun 20, 2024

感谢

jackleef changed discussion status to closed Jun 21, 2024

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment