克日,,,上海影戏学院影视工程系谢志峰、李梦甜西席团队的研究事情《SonicVisionLM: Playing Sound with Vision Language Models》乐成被盘算机视觉国际顶级学术聚会 The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2024(CVPR)任命,,,是威廉希尔上海影戏学院首次以第一单位在盘算机视觉国际顶级聚会上揭晓高水平学术论文,,,也是威廉希尔“艺术手艺”阵地建设的最新研究效果。。。。
CVPR是盘算机视觉领域顶级聚会(CCF-A类),,,每年都吸引全球众多顶尖科研事情者投稿,,,其任命论文代表着盘算机视觉领域最新的研究效果,,,指引着该领域未来的研究偏向。。。。凭证权威的Google Scholar Citation最新统计,,,CVPR的H5-index为389,,,位列全球出书物第四(Nature位列第一),,,工程与盘算机类出书物第一,,,泛人工智能领域第一。。。。
论文首次使用AIGC手艺为影戏自动天生音效,,,以大幅降低影戏配乐制作的时间和人力本钱,,,有用缩短影戏制作周期。。。。详细来说,,,论文通过视觉-语言模子提出可控的音效天生框架SonicVisionLM,,,用于自动识别并天生影片的屏内音效,,,并配套提供了用户交互????,,,用于配音师对影片的屏外音效实现创作编辑,,,引发创作灵感。。。。在手艺上针对天生音效与影片行动的时间同步的难题,,,和天生音效与影片内容的高度一致的问题,,,最终实现了影片内容与屏内音效的逻辑融合,,,以及对屏外音效的无邪编辑。。。。论文提出的要领在无条件天生和条件天生使命中都取得了目今最佳的实验效果。。。。同时,,,论文为学术社区孝顺了果真的高质量的音效数据集CondPromptBank,,,其包括23个常见音效种别,,,10276 个自力条目,,,每个条目包括一个短于或即是10秒的高质量音效文件、对应文本和时间戳。。。。论文原文、代码和数据集详见项目主页:https://yusiissy.github.io/SonicVisionLM.github.io/(项目主页展示了经典影片《泰坦尼克号》和《这个杀手不太冷》的音效天生效果示例)。。。。该论文的学生一作为余盛叶,,,数字媒体创意工程硕士研究生二年级在读;;;;;学生二作为何其乐,,,数字媒体创意工程硕士研究生一年级在读。。。。

SonicVisionLM示意图:图中蓝色部分体现屏内音天生流程:首先,,,一段无声视频进入视觉-语言模子,,,获得声音文本;;;;;其次,,,视觉网络对视频举行处置惩罚,,,捕获声音事务时间戳;;;;;最后,,,这两个条件将被输入扩散模子,,,以天生与屏幕上的内容相匹配的屏内音效。。。。紫色部分显示了用户怎样建设和编辑屏外音效。。。。
西席团队先容:
谢志峰,,,工学博士,,,现为威廉希尔上海影戏学院影视工程系、上海影戏特效工程手艺研究中心副教授、博士生导师,,,中国影戏电视手艺学会影戏高新手艺专业委员会委员。。。。主要从事盘算机图形学、盘算机视觉、影戏高新手艺等方面的研究。。。。主持国家自然科学基金、上海市科委科技立异、上海市教委科研立异、企业委托等各级别课题10余项,,,加入973、863、自然基金重点、面上等多项国家级课题,,,揭晓高水平论文40余篇,,,其中SCI/EI收录30余篇(含国际顶级期刊和聚会论文10篇),,,出书专著1本,,,申请专利和软件著作权17项。。。;;;;;竦2014年上海市科技前进二等奖,,,2017年威廉希尔蔡冠深优异青年西席奖,,,2022年中国盘算机图形学大会最佳论文奖,,,及2023年CAD/Graphics 2023国际学术聚会最佳论文奖。。。。一经赴香港都会大学盘算机系作会见学者。。。。
李梦甜,,,工学博士,,,博士后,,,现为威廉希尔上海影戏学院讲师,,,硕士生导师。。。。任中国盘算机学会盘算机辅助设计与图形学专委会执行委员,,,中国图像图形学学会数字娱乐与智能天生专委会专业委员、数字娱乐与仿真专委会专业委员,,,盘算机图形学与混淆现着实线平台(GAMES)执行委员。。。。主要研究偏向为盘算机视觉、盘算机图形学。。。。加入国家自然科学基金重大、面上、社科重大,,,上海市科委、经信委重大等科研项目。。。;;;;;馛AD/Graphics 2023国际学术聚会最佳论文奖。。。。以第一作者/通讯作者在盘算机国际顶级期刊和聚会CVPR、ECCV、PR上揭晓论文多篇,,,担当盘算机视觉顶级学术聚会和期刊CVPR、ICCV、ECCV、ICLR、ICML,,,NeurIPS、AAAI、TIP,,,TCSVT,,,PR审稿人。。。。