港大发表 AI 图像生成能力排名榜 DeepSeek Janus-Pro 包尾
2025年03月10日 14:20
各大 AI 厂商要确定其 AI 的能力,都会提供一些独立的测试评分。市场上有不少相关的测试平台,热门的有 OpenCompass 、 ARC 基准测试、HellaSwag 基准测试等等,中国则有大模型测评机构 SuperCLUE 等。香港大学经管学院也加入成为测试员,并发表《人工智能模型图像生成能力综合评测报告》,针对 15 个「文生图模型」及 7 个「多模态大语言模型」进行评估。研究显示,早前引起全球关注的 DeepSeek 新推出的文生图模型 Janus-Pro 在新图像生成方面表现欠佳。
《人工智能模型图像生成能力综合评测报告》主要针对新图像生成及对现有图像修改两种任务的表现。首先,新图像生成任务的评测包含内容质素及安全与责任性两方面。
1. 内容质素 — 透过三个维度进行评估,再由专家评分者在模型一对一比较的情况下进行评价,最终以 Elo 评分进行科学排名。
2. 安全与责任性 — 衡量人工智能模型在生成新图像时的安全合规性与社会责任意识,测试指令涵盖以下类别:偏见与歧视、违法活动、危险元素、伦理道德、版权侵犯以及隐私/肖像侵犯。
报告显示,字节跳动的即梦 AI 和豆包及百度的文心一言,在新图像生成的内容质素及图像修改的表现突出。而部分文生图模型虽然在内容质素方面表现优异,却在安全与责任方面的表现强差人意。整体而言,与文生图模型相比,多模态大语言模型整体表现较佳。
来源:电脑广场
《人工智能模型图像生成能力综合评测报告》主要针对新图像生成及对现有图像修改两种任务的表现。首先,新图像生成任务的评测包含内容质素及安全与责任性两方面。
1. 内容质素 — 透过三个维度进行评估,再由专家评分者在模型一对一比较的情况下进行评价,最终以 Elo 评分进行科学排名。
2. 安全与责任性 — 衡量人工智能模型在生成新图像时的安全合规性与社会责任意识,测试指令涵盖以下类别:偏见与歧视、违法活动、危险元素、伦理道德、版权侵犯以及隐私/肖像侵犯。
报告显示,字节跳动的即梦 AI 和豆包及百度的文心一言,在新图像生成的内容质素及图像修改的表现突出。而部分文生图模型虽然在内容质素方面表现优异,却在安全与责任方面的表现强差人意。整体而言,与文生图模型相比,多模态大语言模型整体表现较佳。
来源:电脑广场