本篇文章769字,读完约2分钟

北京时间4月16日早间新闻,谷歌研究人员开发了一个深度学习系统,可以帮助计算机在嘈杂的环境中更好地识别和辨别一个人的声音。

本周谷歌研究博客上的帖子显示,该公司的一个内部团队正试图复制鸡尾酒会效应,也就是说,就像人脑一样,它可以积极地专注于一个声源,同时过滤其他声源& mdash& mdash就像你在派对上和朋友聊天时做的一样。

谷歌的方法使用了一个视听模型,允许它专注于辨别视频中的声音。该公司还发布了几个YouTube视频来展示这项技术的实际效果。

谷歌表示,这项技术可以应用于单轨视频,并可以通过算法分离视频中不同人的音频内容。它还可以让用户手动选择视频中的人脸来听人们的声音。

谷歌表示,视觉元素是关键,因为这项技术将关注一个人的嘴唇运动,以便更好地判断在某个时间点应该关注哪个声音,并为更长的视频创建更准确的独立音轨。

谷歌的研究人员开发了这个模型,收集了10万个YouTube语音视频,总共提取了大约2000个小时的内容,然后混合音轨创建了一个人工鸡尾酒会,并添加了人工背景噪音。

谷歌后来训练了这项技术,通过观察每个视频中的人脸和视频轨道的声谱图来分割混合音频。该系统可以在特定时间分辨出哪个声源属于哪个人脸,并为每个人制作单独的音轨。

谷歌认为,闭路字幕系统将成为该系统的一个主要应用领域。他们仍在设想一个更广阔的应用方向,并探索更多机会将其整合到各种谷歌产品中。例如,如果你把它添加到谷歌主页智能扬声器中,你可以区分不同用户的指令。

然而,这种模式需要视频才能更好地工作,所以它可能更适合亚马逊回声秀。今年早些时候,谷歌为智能显示器(如回声秀)推出了谷歌助手,但该公司自己尚未推出这样的产品。

但是这项技术也可能引发隐私问题。虽然这项技术的实际效果远不如视频演示效果好,但经过一些小的调整,它有可能成为一个强大的监控工具。(思远)

来源:罗马观察报

标题:谷歌使用人工智能从嘈杂的环境中提取独立的音轨:或者隐私问题

地址:http://www.l7k9.com/gcbyw/770.html