首页 / 探索 / 正文

把光影翻的声响译为丰厚

  【只此青翠】 。翻译  。把光

把光影“翻译”为丰厚的丰厚声响 。

浙江大学软件学院副教授 周晟 。翻译

  我是把光一名计算机范畴的科研作业者 ,咱们团队长时间深耕信息无障碍范畴 。丰厚一次走进我国盲文图书馆的翻译阅历,彻底改变了我的把光研讨方向。那天恰逢无障碍电影放映 ,丰厚黑私自,翻译大屏幕上开端播映画面 ,把光影厅一隅响起的丰厚“播音腔”提前为观众勾勒出故事的概括。画面被“翻译”成声响 ,翻译视障观众和普通人相同沉浸到光影国际,把光这种体会是丰厚听录音、读文字无法代替的。

  放映完毕后,制造团队疲乏却满意的神态触动了我 。他们手艺制造一部无障碍电影需求数百小时——我多么期望 ,这份沉重的爱能够有雄健的翅膀 。返程路上 ,团队成员在波动的车厢里打开剧烈评论 ,键盘敲击声与创意火花一起爆发 。那一刻 ,咱们决意让人工智能为爱的传递提速 。

  咱们研制的EagleMovie智能制造体系的中心功用 ,源自三个AI引擎的精密协作。首要上台的是“空地捕捉者”,它交融语音辨认与文字辨认技能,在电影声轨中精准定位静默区间 ,用来刺进旁白。接着“视觉说明员”开端作业,这个根据多模态大模型的中心模块 ,能了解画面中奔驰的轿车、飘落的樱花,甚至能说明人物含泪的浅笑 。最令我自豪的是,它能用“风卷起她鲜红的围巾,像一团不愿平息的火焰”这类充溢文学颜色的言语描绘场景。

  当智能生成的文本经过严厉校验后 ,“声响魔术师”开端吟唱。咱们练习的语音组成体系能调理语速与情感浓度 ,使说明语音与电影原声带无缝交融。从前需求专业人员消耗一周的作业,现在在AI辅佐下可压缩到几小时 。当第一批无障碍电影经过盲文图书馆送到视障朋友手中时,咱们收到的语音反应里带着呜咽 :“本来超人披风飘荡的声响是这样的!” 。

  在浙江特殊教育职业学院 ,视障学生们改写了我的认知 。一位男生摸着盲文笔记本说 :“教师 ,您知道为什么我总坐在教室第一排吗 ?我在‘听’电影时,需求把每个人物脚步声都刻进心里 。”他们巴望的不仅是故事 ,更是经过印象与社会情感同频共振的权力 。这份巴望化为沉甸甸的托付,压在咱们每个研制者的肩头 。

  当时AI对电视剧杂乱场景的了解力仍显缺乏,直播场景的实时说明更是巨大应战。某次测验中 ,体系把古装剧里的玉佩过错描绘成手机,让咱们意识到通用视觉了解能力仍需进化 。更要害的是 ,怎么让山东的视障老人和上海的盲童都能取得契合本身言语习气的说明 ?个性化适配的难题正推进咱们向更精密的算法探究。

  当更多志愿者开端为家园方言版无障碍电影录制声响 ,当视频渠道敞开AI说明插件接口 ,科技的温度终将消融坚冰。这条路没有结尾 ,但每次收到视障观众发来的语音感谢,都让我坚信:咱们所寻求的方针  ,正一步步地成为实际 。

  (光明日报记者王美莹 、光明日报通讯员刘祎涵采访收拾) 。

  《光明日报》(2025年06月10日 12版) 。