208. 真的吗？我不信_重生之AI教父

机制的t方法在早期有不小的缺陷，模型小了效果不好，数据少了效果不好，训练方式不对效果还是不好。”

    看伊利亚和几个将信将疑的同事开始了尝试，孟繁岐心中清楚，他们恐怕是很难直接取得成功的。但这并不是方法本身的问题，而是诸多因素一起的限制。

    “他们到时候不信，这倒也没什么关系，等英伟达的那批泰坦显卡到了，我给他们整个大的。”

    语言模型，就是要大！相比现在流行的办法，只要模型做大，别的技巧就算不用那也是降维打击。

    切到自己的工作这边来，文字合成语音，实际上和语音识别技术是一对孪生兄弟。

    一个是从文本生成语音，让机器说话，另一个则是识别语音成为文本，让机器在比较熟悉的语言领域处理这些信息。

    孟繁岐既然动了手，自然两兄弟都打包一起做了。

    先做公司有任务的文字生成语音这一边，这个技术当然不仅仅只限于在翻译界面上进行简单的发音。

    “文字生成语音的应用范围还是比较广泛的，比如谷歌刚刚收购的智能家居公司，其中就可以有各种语音助手，或者是有声读物，乃至于23年开始有些起色的AI歌手和AI主播这种泛娱乐方向。”

    尤其是AI歌手，通过大量语音素材学习到一个人的嗓音特色之后，就完全可以生成海量的各种歌曲，突破了语言的限制，想让他唱什么就让他唱什么。

    妙，实在是妙啊！

    “现在的语音合成系统主要分三步走，前端预处理，声学模型和声码器。虽然深度神经网络可以更加激进地舍弃其中一些环节，但同样也会带来新的问题。”

    “我的目的只是为了完成奠基之作，推广t方法出去，不必给自己加那么大的工作量，语音不是我非常关注的方向。”

    孟繁岐的思路比较清晰，虽然重生了，倒也不必要什么工作都要复现那么到位。

    “前端处理主要是给定一个文本生产它的发音信息及语言学信息，这部分现在比较成熟，直接根据处理好的信息去学声学模型会容易不少，可以显着降低我的工作量。”

    所谓的发音信息，可以理解为字形转音形。
> --

本章未完，点击下一页继续阅读(第2页/共3页)

铁书网

208. 真的吗？我不信