2026年1月26日,广州软件院孵化企业中科凯泽(CAS Cogniser)与香港科技大学(广州)合作的研究论文《重新思考文本生成图像领域的评价陷阱》(Guidance Matters:Rethinking the Evaluation Pitfall for Text-to-Image Generation)正式被ICLR 2026录用。这一成果依托广东省博士创新站产学研协同平台产出,为文本生成图像(T2I)领域的评估体系优化提供了重要的学术参考,也是粤港澳大湾区AI领域校企协同创新的重要成果。

ICLR(国际学习表征大会)是人工智能与机器学习领域全球公认的顶级学术会议,与NeurIPS、ICML并称该领域“三大顶会”,以评审标准严苛、研究成果前沿性强著称,其收录的论文代表着全球相关领域的最高学术研究水平,是国内外科研机构与学者公认的重要学术成果展示平台。
本次发表的论文围绕扩散模型引导的文本生成图像领域展开深入研究,直面行业现有评估体系的核心痛点,形成四项关键研究贡献:其一,揭示领域核心评估陷阱,发现常见人类偏好模型对大指导尺度存在偏见,单纯增加CFG尺度虽能提升量化评估分数,却易造成图像过饱和、伪影等质量问题;其二,提出全新的制导感知评估(GA-Eval)框架,通过CFG尺度校准实现现有制导方法与CFG之间的公平对比;其三,设计超越扩散指导(TDG)方法,印证传统评估框架的局限性,该方法在传统框架中可提升人类偏好分数,实际应用中却无实效;其四,对八种主流扩散引导方法开展全面实证评估,证实单纯增加CFG尺度即可与多数扩散引导方法抗衡,且各类方法在超标准CFG下获胜率均显著下降。
该研究直指文本生成图像领域传统评估范式的弊端,为行业重新审视评估标准提供了扎实的实证依据,将推动领域研究回归以实际质量提升为核心的发展路径。同时,这一成果也为粤港澳大湾区高校与企业开展AI前沿研究合作提供了典型范例,助力区域人工智能产学研融合向纵深发展。
此前,中科凯泽已联合香港科技大学、香港理工大学启动首批广东省博士创新站,聚焦人工智能前沿方向搭建产学研融合平台,打通高校基础研究与企业技术落地的协作链路,本次顶会成果的发布,正是该平台赋能校企协同科研的具体落地。
未来,广州软件院中科系团队将进一步深化与港澳高校、科研院所及产业界的全方位合作,以博士创新站等产学研平台为抓手,推动更多顶尖学术成果走向工程化、产业化,为粤港澳大湾区人工智能产业高质量发展与科技创新协同升级持续贡献力量。
