206. 从文本到语音_重生之AI教父

样，有什么我能帮上忙的吗？”

    翻译任务属于语言任务的一种，是chatGpt功能的一部分，孟繁岐也算是比较了解。

    “这边我们已经做得差不多了，你如果想帮忙的话，倒是可以处理一下文字到语音的问题。”

    现在的许多翻译页面，都会同时提供一个文本发音的功能，只是现在这个阶段还比较粗糙。

    这是很合理的需求，用户使用翻译很多时候不仅仅是为了理解意思，想要学习读音也是非常正常的现象。

    而从文字到语音的转换过程，被称为ttS(text-to-speech)技术。译为文本转语音，是一种能把文字内容转换为语音输出的技术。

    chatGpt则是文本到文本技术，内容的性质没有发生改变。

    这样对比起来，乍一看似乎文本转语音要复杂一点，因为输入和输出的种类都不同了。

    chatGpt是根据文本回应文本，ttS则需要根据输入文本去输出波形从而表达声音。

    但事实上难度的是完全反过来的，并且ttS技术要容易不少，因为它并不需要理解文本本身的含义，chatGpt则需要理解文本本身的意义，并进行合理的回应。

    “文本首先需要一套语言学标注系统，将文本分词，然后标注音素音节和单词级别的信息，用以最后去合成语音。”

    孟繁岐大概确认了一下现在常用的传统办法的水平：“目前的语音主要是基于语音库，这个库里存放了大量的文本和它的对应音频。这就像是素材库，根据需求把素材拿出来拼在一起。”

    “最简单的办法，就是拼接合成。用标注系统跑一下输入的文本，得到了一大串语言学的标注。得到标注之后，直接从语音库里找对应的音频拼起来就好了。”

    “现在步入了深度学习时代，完全可以用新做法了。比如，我可以直接用深度网络学习文本到声学特征的对应关系，这样就不再需要去标注文本了，不过最后还是需要声码器。”

    语言相关的任务，万物皆可序列到序列，输入是一个序列，输出也是一个序列，其中的许多原理都是相通的。

    只是做这件事情不能够再用传统的循环网络和长短期记忆办法了，那样有点跟不上节奏。

    孟繁岐要将上次搜索引擎中已经加入的雏形transformer方法彻底实现完成，并发布出去。

    Gpt的t方法是时候作为论文正式出现了！

     >> --

本章未完，点击下一页继续阅读(第3页/共3页)

铁书网

206. 从文本到语音