港大发表 AI 图像生成能力排名榜　DeepSeek Janus-Pro 包尾-财经速递-现代电视_FinTV

港大发表 AI 图像生成能力排名榜　DeepSeek Janus-Pro 包尾

2025年03月10日 14:20

各大 AI 厂商要确定其 AI 的能力，都会提供一些独立的测试评分。市场上有不少相关的测试平台，热门的有 OpenCompass 、 ARC 基准测试、HellaSwag 基准测试等等，中国则有大模型测评机构 SuperCLUE 等。香港大学经管学院也加入成为测试员，并发表《人工智能模型图像生成能力综合评测报告》，针对 15 个「文生图模型」及 7 个「多模态大语言模型」进行评估。研究显示，早前引起全球关注的 DeepSeek 新推出的文生图模型 Janus-Pro 在新图像生成方面表现欠佳。
《人工智能模型图像生成能力综合评测报告》主要针对新图像生成及对现有图像修改两种任务的表现。首先，新图像生成任务的评测包含内容质素及安全与责任性两方面。
1. 内容质素 — 透过三个维度进行评估，再由专家评分者在模型一对一比较的情况下进行评价，最终以 Elo 评分进行科学排名。
2. 安全与责任性 — 衡量人工智能模型在生成新图像时的安全合规性与社会责任意识，测试指令涵盖以下类别：偏见与歧视、违法活动、危险元素、伦理道德、版权侵犯以及隐私/肖像侵犯。
报告显示，字节跳动的即梦 AI 和豆包及百度的文心一言，在新图像生成的内容质素及图像修改的表现突出。而部分文生图模型虽然在内容质素方面表现优异，却在安全与责任方面的表现强差人意。整体而言，与文生图模型相比，多模态大语言模型整体表现较佳。

来源：电脑广场

港大发表 AI 图像生成能力排名榜 DeepSeek Janus-Pro 包尾

相关新闻

港大发表 AI 图像生成能力排名榜　DeepSeek Janus-Pro 包尾