德克萨斯大学研究团队利用生成性人工智能将声音转换为街景图像

图片源于:https://news.utexas.edu/2024/11/27/researchers-use-ai-to-turn-sound-recordings-into-accurate-street-images/

德克萨斯州奥斯汀——一组来自德克萨斯大学奥斯汀分校的研究人员利用生成性人工智能,将音频录音中的声音转换为街景图像。

这些生成图像的视觉准确性表明,机器可以复制人类在环境音频和视觉感知之间的连接。

在发表于《计算机、环境与城市系统》期刊的论文中,研究团队描述了如何使用来自多种城市和乡村街景的音频和视觉数据,训练了一种声景到图像的AI模型,然后使用该模型从音频录音中生成图像。

“我们的研究发现,声学环境包含足够的视觉线索,可以生成高度可识别的街景图像,这些图像准确地描绘了不同的地方,”德克萨斯大学地理与环境助理教授、该研究的共同作者杨浩(Yuhao Kang)说。“这意味着我们可以将声学环境转化为生动的视觉表现,有效地将声音转换为景象。”

研究团队使用来自北美、亚洲和欧洲城市的YouTube视频和音频,创建了10秒钟的音频片段和图像静帧配对,然后用这些数据训练了一个AI模型,可以从音频输入生成高分辨率的图像。

随后,他们将AI生成的音频到图像的作品与其各自的真实照片进行了比较,使用了人类和计算机的评估。计算机评估比较了源图像和生成图像之间绿地、建筑物和天空的相对比例,而人类评审者则被要求将三幅生成图像中正确与音频样本相匹配的一幅找出。

结果显示,生成图像与真实世界图像在天空和绿地的比例上存在很强的相关性,而建筑物的比例相关性稍逊些。人类参与者在选择与源音频样本对应的生成图像时的平均准确率为80%。

“传统上,从声音中展现场景的能力是人类特有的能力,反映了我们与环境的深层感官连接。我们使用由大型语言模型(LLMs)支持的先进AI技术,证明了机器具有接近这种人类感官体验的潜力,”杨浩说。“这表明,AI不仅可以识别物理环境,还有可能丰富我们对不同地方人类主观体验的理解。”

除了接近天空、绿地和建筑物的比例外,生成的图像通常还保持了其真实世界图像对应物的建筑风格和物体间距,并准确地反映了声景是在晴天、多云或夜间光照条件下录制的。

作者指出,光照信息可能来自声景活动的变化。例如,交通声音或夜间昆虫鸣叫声可以揭示一天中的时间。这些观察进一步加深了我们对多感官因素如何影响我们对地方体验的理解。

“当你闭上眼睛倾听时,周围的声音在你头脑中绘制出图画,”杨浩说。“例如,远处的交通嗡嗡声变成了繁忙的城市景观,而树叶的轻轻摇曳则将你带入宁静的森林。每一个声音编织成一幅生动的场景,就像魔法般,在你想象的戏剧中。”

杨浩的研究侧重于使用地理空间AI研究人类与环境的相互作用。在最近发表在《自然》期刊的一篇论文中,他和合著者研究了AI捕捉使城市具有独特身份的特征的潜力。