变脸还不够完美?这里有一个开源的变声软件,让你做戏做全套!|LOL外围
发布时间:2021-11-09  

最近,一只“总统洋葱新闻”在Youtube和Reddit上引发了一波讨论。视频中,特朗普用它一贯懒散的声音播报了一组耐人寻味的新闻——“数据雨“:民主党人把太多数据存在运上,冷却后成为液体,最后通过降雨落下来,对地球生态造成庞大伤害。想要制止这种致命液体,你需要躲在屋里,不要出门。

视频地址:https://www.youtube.com/watch?v=jzKlTKsHeus虽然内容荒唐,但整个视频中的声音效果很是真实,以至于不少网友在捧腹大笑的同时也开始讥讽,“是不是很快就能接到特朗普给我打的广告电话了。”再加上近期,“假脸”技术放肆盛行,与之配套的“假声音”上线后,更能生成无缝衔接的假视频,让假戏做足,真假难辨。靠换脸技术”出演”《射雕英雄传》的杨幂一键生成“假声音”关于变音技术,江湖上确实流传了几种,不外加持了机械学习和深度学习,这种技术不再是简朴的语音滤波器。

跟”一键变脸“的deepfake软件一样,研究者们也开发了让不懂技术的同学直接易上手的变声软件。刚刚听到的这个声音就来自这样一个网站Modulate.ai。麻省理工科技评论的资深编辑Will Knight用其轻易就合成了差别的声音。

建立这个网站的三个小同伴,有两个来自麻省理工,另有一个来自加州大学洛杉矶分校。对于游客,这个网站给出了几个适用的声音,对于想定制名人声音的用户,还得通过官网给出的联系方式联系他们。

LOL外围

据网站先容,合成的声音是是接纳神经网络训练来训练,具有低延迟性以及实时性。文摘菌试了一把,在网站的提供的接口处录下声音,选择你想要的“性别”或者“名人”,网站会很快生成你想要的声音。网站地址:https://modulate.ai/此外,百度在18年的3月份曾经宣布,百度开发的新 AI 算法Deep Voice可以通过3.7秒钟的录音样本数据就能完美的克隆出一小我私家的声音。Deep Voice是百度AI研究院一个由深度神经网络构建的高质量语音转(TTS )系统。

除了使用少量样本克隆声音外,系统还能将女性声音转酿成男性,英式声音酿成美式。语音转语音的详细历程声音的直接转换是比力庞大的,因为一小我私家的“声音”不仅是由声带界说,声带只是声音的频率,详细来说,还取决于口音和说话气势派头。另外,音高会受胸腔的物理特性等的影响。

这些影响作用在差别的层面上,发音决议了单词和短语是如何在几秒钟或几十秒内被识别出来。当开始合成语音时,技术人员主要会思量三个因素。首先是生物因素,这些因素人们难以自行改变。

LOL外围

第二,构建声音认同观点,即任何在语言下显着体现出来的同一性。有了这个界说,就可以很好的建设语音识别模型。

第三,建设独立于上下文处置惩罚语音片段的模型,这个模型的利益是它比神经网络中所要处置惩罚的序列模型要简朴的多,而且可以有效的降低语音处置惩罚延迟。总的来说,所要建设的系统是:把一个说话人的声音的频率漫衍(frequency profile)换成另一个声音的频率漫衍,同时保持他们讲话的其余属性稳定。所以,自然的将系统分为两个部门:1、语音识别 2、语音转换。

这两个部门最主要的区别是,是从语音转换到文本,还是从文本转换到语音。如果这两个部门独立运行,那么整个系丢失“情感模拟”。语音转文本和文本转语音同属一个极端的情况。语音转换必须使用前言,由于系统只能给出语音,而且实验在输出中再现输入的语句。

LOL外围

通过限制某时段通过系统的信息量,系统学习识别功效(identity function),这是系统的瓶颈。在从语音到文本到语音的情况下,瓶颈在于对输入的语音举行文本表现,因此系统必须举行一般性学习,才气凭据文本生成可靠的语音。从通过机械学习构建这样一个系统的角度来看,泛起瓶颈自然有其的原理。

机械学习,特别是深度学习,当被训练来完成一项特定的任务时,一直体现得很是好。可是瓶颈自动编码器没有接受过语音转换的训练,他们接受的是自动编码训练。破解瓶颈的主要方法是调整信息瓶颈的带宽。

例如文本中间表现,会丢失太多信息。文本可以使用情感标签或其他符号举行注释,但这些需要对监视数据着重举行手动注释。

详细的步骤:首先实验在两种差别的损失函数上训练说话人标识符( identifie):真实音频匹配扬声器设置文件和生成音频,以及真实音频匹配扬声器设置文件和真实音频的扬声器设置文件。使得说话人的标识符“寻找”说话人身份,否则它只能关注于检测生成的音频。在实践中,发现只有对两个损失函数中的第一个函数的训练才气起到同样的作用:说话人标识符首先学会区分真实的音频和生成的音频,然后随着生成器开始发生更高质量的输出,自然进化到使用说话人设置文件。

在神经网络的输入层对说话人标识符的巨细设置了处罚。处罚的巨细是一个可调整的参数,通过训练效果进步显着与否,可以判断最优参数。

对于真实和假音频,我们最好的训练倾向于快速收敛0.55的交织熵,然后在大多数训练历程中逐步爬过0.6。然后继续革新系统系结构,通过直接优化语音转换目的,通过一个新的说话人标识符,能够发生与目的声音精密匹配的合成语音,同时保留了通常由瓶颈架构丢失的表达性。AI合成大事件通过AI技术合成图片以及视频早已不新鲜,要说最著名的合成案例可能就是下面这个。

这项技术由华盛顿大学SUPASORN SUWAJANAKORN等三人配合发现,他们坦言,之所以选用奥巴马做研究规范,是因为他的高清视频资源获取很是容易,而且不受版权限制。因此,研究小组用神经网络分析了数百万帧的视频,来确定奥巴马的面部心情如何变化。开口说话需要整个面部器官的协调,所以研究人员不仅分析了口型变化,还包罗他的嘴唇、牙齿和下巴周围的皱纹,甚至还包罗脖子与衣领。

LOL外围

详细的操作历程是:研究人员收罗了音频片段(原始音频文件),再把口型和新的音频文件剪辑匹配,再嫁接到新视频。海内的科技公司也在这一领域各有千秋。

拿导航用的语音来说,科大讯飞的董事长刘庆峰在2018世界机械人大会上表现,高德舆图导航上面的林志玲、郭德纲的声音都是合成,其实都不是本人原音,而是由他们的机械来完成合成的,压根就不是本人录的。_LOL外围。

本文来源:LOL外围-www.lycpsj.com

LOL外围

下一篇:喜欢水原希子的人都市喜欢Supreme,他们都爱摆臭脸【LOL赛事外围网站】 上一篇:恶意调解欲瓜分遗产,应当如何维权?-LOL赛事外围网站