港大發表 AI 圖像生成能力排名榜　DeepSeek Janus-Pro 包尾-財經速遞-現代電視_FinTV

港大發表 AI 圖像生成能力排名榜　DeepSeek Janus-Pro 包尾

2025年03月10日 14:20

各大 AI 廠商要確定其 AI 的能力，都會提供一些獨立的測試評分。市場上有不少相關的測試平台，熱門的有 OpenCompass 、 ARC 基準測試、HellaSwag 基準測試等等，中國則有大模型測評機構 SuperCLUE 等。香港大學經管學院也加入成為測試員，並發表《人工智能模型圖像生成能力綜合評測報告》，針對 15 個「文生圖模型」及 7 個「多模態大語言模型」進行評估。研究顯示，早前引起全球關注的 DeepSeek 新推出的文生圖模型 Janus-Pro 在新圖像生成方面表現欠佳。
《人工智能模型圖像生成能力綜合評測報告》主要針對新圖像生成及對現有圖像修改兩種任務的表現。首先，新圖像生成任務的評測包含內容質素及安全與責任性兩方面。
1. 內容質素 — 透過三個維度進行評估，再由專家評分者在模型一對一比較的情況下進行評價，最終以 Elo 評分進行科學排名。
2. 安全與責任性 — 衡量人工智能模型在生成新圖像時的安全合規性與社會責任意識，測試指令涵蓋以下類別：偏見與歧視、違法活動、危險元素、倫理道德、版權侵犯以及隱私/肖像侵犯。
報告顯示，字節跳動的即夢 AI 和豆包及百度的文心一言，在新圖像生成的內容質素及圖像修改的表現突出。而部分文生圖模型雖然在內容質素方面表現優異，卻在安全與責任方面的表現強差人意。整體而言，與文生圖模型相比，多模態大語言模型整體表現較佳。

來源：電腦廣場

港大發表 AI 圖像生成能力排名榜 DeepSeek Janus-Pro 包尾

相關新聞

港大發表 AI 圖像生成能力排名榜　DeepSeek Janus-Pro 包尾