铁书网

字:
关灯 护眼
铁书网 > 重生之AI教父 > 208. 真的吗?我不信

208. 真的吗?我不信

机制的t方法在早期有不小的缺陷,模型小了效果不好,数据少了效果不好,训练方式不对效果还是不好。”

    看伊利亚和几个将信将疑的同事开始了尝试,孟繁岐心中清楚,他们恐怕是很难直接取得成功的。但这并不是方法本身的问题,而是诸多因素一起的限制。

    “他们到时候不信,这倒也没什么关系,等英伟达的那批泰坦显卡到了,我给他们整个大的。”

    语言模型,就是要大!相比现在流行的办法,只要模型做大,别的技巧就算不用那也是降维打击。

    切到自己的工作这边来,文字合成语音,实际上和语音识别技术是一对孪生兄弟。

    一个是从文本生成语音,让机器说话,另一个则是识别语音成为文本,让机器在比较熟悉的语言领域处理这些信息。

    孟繁岐既然动了手,自然两兄弟都打包一起做了。

    先做公司有任务的文字生成语音这一边,这个技术当然不仅仅只限于在翻译界面上进行简单的发音。

    “文字生成语音的应用范围还是比较广泛的,比如谷歌刚刚收购的智能家居公司,其中就可以有各种语音助手,或者是有声读物,乃至于23年开始有些起色的AI歌手和AI主播这种泛娱乐方向。”

    尤其是AI歌手,通过大量语音素材学习到一个人的嗓音特色之后,就完全可以生成海量的各种歌曲,突破了语言的限制,想让他唱什么就让他唱什么。

    妙,实在是妙啊!

    “现在的语音合成系统主要分三步走,前端预处理,声学模型和声码器。虽然深度神经网络可以更加激进地舍弃其中一些环节,但同样也会带来新的问题。”

    “我的目的只是为了完成奠基之作,推广t方法出去,不必给自己加那么大的工作量,语音不是我非常关注的方向。”

    孟繁岐的思路比较清晰,虽然重生了,倒也不必要什么工作都要复现那么到位。

    “前端处理主要是给定一个文本生产它的发音信息及语言学信息,这部分现在比较成熟,直接根据处理好的信息去学声学模型会容易不少,可以显着降低我的工作量。”

    所谓的发音信息,可以理解为字形转音形。
> --
『加入书签,方便阅读』
内容有问题?点击>>>邮件反馈
热门推荐
参加前女友婚礼,现场逮捕新郎官九公主她又美又飒楚倾歌大清要完熊学派的阿斯塔特我是最大总裁回到红火岁月做俗人