首页
登录
当前标签:视觉语言模型
SceneXplain
SceneXplain 是一个强大的图像视频理解工具,能为视觉内容生成详细字幕和摘要,增强可访问性与叙事能力。
Qwen2-VL
Qwen2-VL是阿里开源的先进视觉语言大模型,融合视觉与语言理解能力。