半个月4篇!学生AI论文连获国际顶会“最佳”,上科大做对了什么

发布时间2024-07-24文章来源 文汇报作者许琦敏责任编辑任荃

获得顶级学术会议最佳论文或提名的必赢线路检测中心年轻师生合影

建校仅11年的必赢线路检测中心,日前接连有4篇论文入选人工智能(AI)领域三大国际顶级学术会议最佳论文或提名,且论文主要作者均为该校信息科学与技术学院的本科生、研究生。这份成绩单令业界感到“不可思议”。
通常,入选业界顶会的最佳论文往往创新性超前、贴近行业需求,即使是历史悠久的名校大系,学生论文在顶会获奖也是难度极高。此次,短短半个月,同一高校、同一学院的4项研究成果接连在国际顶会中脱颖而出,高密度、高含金量“出圈”背后,年轻的上科大成功“解锁”了什么?
罕见:年轻高校本研学生论文“连中”顶会
好消息是在6月下旬接连传来的。4篇论文中,有两篇获得美国计算机协会(ACM)SIGGRAPH最佳论文荣誉提名,一篇摘得IEEE国际计算机视觉与模式识别会议(CVPR)最佳学生论文奖,还有一篇则拿下了国际设计自动化会议(DAC,集成电路设计四大顶会之一)最佳论文提名
论文获得这些AI领域顶会的青睐有多难?作为计算机图形学领域的重量级国际会议,在SIGGRAPH上呈现的想法、愿景和技术往往会超出人们的想象,有望成为未来五年、十年后的技术发展基础。今年的SIGGRAPH总共只选出了5篇最佳论文和12篇最佳论文荣誉提名。
而身为国际计算机视觉与模式识别领域顶级会议的CVPR,每年逾万篇论文投稿,录用率仅25%,其中能够获奖的仅10篇,最佳学生论文只有2篇。
“国际同行看到获奖名单几乎惊呆了。”上科大信息科学与技术学院院长虞晶怡说,从来获得这些奖项的学生,都出自具有几十年、百余年历史的世界顶尖名校,中国学生获奖更是小概率事件。
这次,年轻的上科大不仅连中4篇,而且主要作者均为本科就进入上科大的硕士生、博士生,还有一位刚刚大四毕业的本科生。
在上科大信息学院的MARS展厅里,记者看到了这群年轻人的创意——
以博士生张龙文、张启煊为主力研发的CLAY拥有15亿参数,是目前最大、质量最佳的3D原生生成式大模型,其性能显著超越了包括Meta、OpenAI、Adobe等大厂的同期工作。由于便捷好用,上线短短几个月,它已拥有数十万用户,其中大多为海外用户。
CLAY由一个拥有15亿参数的模型构成,擅长创建高质量、逼真的3D资产,旨在轻松将想象力转化为3D模型
以本科四年级学生何开为第一作者完成的DressCode,则是基于文字描述的自回归服装板片生成大模型——只需输入一段文字,它不仅能生成穿着状态下真实的衣物模型,还能直接给出所有裁片等工艺参数,裁缝只需照做,就能获得一模一样的成衣。
DressCode展示了一种专为3D服装设计的生成式AI框架
获得CVPR最佳论文的成果则发现了可方便高效解决3D高斯渲染技术中“伪影”问题的新方法,能实现任意比例下的“无锯齿渲染”,而这是业界想要竞相解决的难题之一。
CVPR最佳论文揭晓现场
刚直博不久的邬一闻、陈禹阳以论文“大模型在光刻热点纠错上的应用”拿下DAC最佳论文提名。此外,2021届本科生王悦豪本科期间的论文也入选今年SIGGRAPH最佳论文荣誉提名。
无界:从课题到创业瞄准大模型应用空白
在采访中,记者发现,这些获奖论文都有一个共同的入选理由:令人耳目一新,意想不到。
只要随意输入文字或平面图片,短短一分钟内,就能利用大模型轻松将想象力转化为逼真的高质量3D模型。CLAY的诞生,几乎将谷歌、英伟达、Meta等国内外3D模型生成高手斩于马下。更不可思议的是,开发出这款模型,从未有过大模型训练经验的张龙文、张启煊等人只用了不到一年。
几位资历尚浅的年轻学生是如何做到的?在上科大信息学院教授许岚看来,“本科生无所不能”。他认为,将本科生看作“一张白纸”,觉得他们还需要经过漫长学习才能做科研的想法早已过时,“只要有兴趣、有需要,他们会主动汲取知识,效率远高于按部就班的课堂传授”。
作为教师,更需要做的是站在学术与产业的前沿,为学生指引创新方向。2022年,随着大模型的飞速发展,上科大信息学院的教授们将目光放在了大模型前沿的垂类应用上——让大模型惠及更多行业领域,鼓励学生在这片“蓝海”中自由驰骋。
“那时,Sora还没发布,大家都认为3D原生大模型通过Diffusion Transformer架构来生成难度很大,但我们却认准了这条路。”张龙文说,虽然当时学院里的老师学生都没有相关开发经验,服务器集群也才刚运到不久,但在查阅大量文献、了解技术前沿趋势后,他们决定一试。
很快,张龙文在虞晶怡和许岚两位教授的指点和帮助下,找来几位同学,拉起了一个小群,开始研究工作。“直到Sora公布,我们才发现竟然与它采用了几乎同样的技术框架。”他透露,几经迭代,CLAY已积累起一大批海内外客户,尤其受游戏行业欢迎。
值得注意的是,在这篇论文的合作单位中,排名第二的是一家名为“影眸科技”的企业。这是上科大硕士毕业生吴迪、曾初啸与张启煊、张龙文于2021年创建的一家开拓3D生成技术的科创企业,迄今已获得红杉资本、奇绩创坛等的投资。张启煊透露,影眸科技刚获得了新一轮投资,未来将继续拓展生成式AI在3D领域的应用,为更多3D行业艺术家带来切实可用的工具。
不为学生设限,鼓励学生带着成果创业,是上科大从建校开始就提倡的理念。近年来,校园里带着初创公司毕业的本科生、研究生逐年增多。这次顶会获奖的论文成果,几乎无一例外,都已朝着技术转化和行业应用的方向前行。
比如,何开即将赴加拿大多伦多大学读博,DressCode的后续开发运营将由影眸科技继续推进。而刚读博不久的邬一闻,在本科期间就与师兄一起成立了一家从事虚拟宠物渲染的科技企业,“无论科研还是创业,在上科大不会有束缚之感”。
自由:本科科研制度“富养”学生创新潜能
本科招生才满10年,几年前的分数线还没达到上海985水准,上科大何以激发出本科生如此强劲的创新潜能?学术上的自由和“富养”,鼓励学生“探索没探索过的问题”,可以说是最大秘诀。
本科科研制度是上科大科教融合的一大特色。目前,上科大约 80% 的本科生会在一到三年级陆续进入实验室参与科研工作,本科三四年级即可选修研究生课程,其中约10%在本科就读期间就收获了科研成果。
何开告诉记者,本科一年级起,他们就可以进实验室、听组会,选择自己感兴趣的课题做研究。他自己就是在大二时遇到了师兄张龙文和张启煊,并对大模型产生了兴趣。
去年,在海外做交换生期间,何开与前来参加SIGGRAPH的学长张启煊交流发现,满足生产管线需求的3D服装生成模型存在空缺。于是,他和同学姚凯欣一起,在张启煊的帮助下,利用大模型离散技术,仅用3个月就研发出了服装生成大模型。他感慨:“在上科大学习非常自由,本科四年有大量时间都在钻研课题、自学各种知识。”
上科大的学术自由还体现在鼓励学科交叉与跨界合作。与其他大多数计算机科学与工程学院不同,上科大信息学院不设院系,只设研究中心。在虞晶怡看来,僵化的学科划分限制了科学想象与合作,而当下众多科学和技术挑战都需要跨学科的紧密合作。
获得DAC最佳论文提名,是邬一闻和陈禹阳没想到的。“我学的是计算机专业AI方向,陈禹阳学的是电子信息工程。”邬一闻回忆,当虞晶怡把“AI for 光刻”的想法告诉他们时,他们还有点懵。不过,他俩很快就在光刻热点的检测上找到了灵感。最终,他们只用了几个月就做出了第一版大模型,经过优化后将光刻热点纠错率提升了近20%。
此外,舍得为本科生做科研投入资源,也为学生的加速成才提供了助力。几乎所有论文获奖学生都提到,他们最大的底气是学院在算力、数据资源上的全力支持,“只要实验需要,老师就会尽力满足,很少有本科生能够获得如此给力的科研支持”。
“当不少身边同龄人忙于考研、考编时,我们更多琢磨的是怎样把下一个项目做得更出色。”张龙文说,经过在上科大校园几年的潜移默化,自己的眼界和心胸不知不觉开拓了许多。
与何开一起完成DressCode项目的姚凯欣觉得,自己心底并没有太多焦虑感,面对未来反而多了一份笃定——相信无论如何变化,自己都有信心和能力去面对。