样,有什么我能帮上忙的吗?”
翻译任务属于语言任务的一种,是chatGpt功能的一部分,孟繁岐也算是比较了解。
“这边我们已经做得差不多了,你如果想帮忙的话,倒是可以处理一下文字到语音的问题。”
现在的许多翻译页面,都会同时提供一个文本发音的功能,只是现在这个阶段还比较粗糙。
这是很合理的需求,用户使用翻译很多时候不仅仅是为了理解意思,想要学习读音也是非常正常的现象。
而从文字到语音的转换过程,被称为ttS(text-to-speech)技术。译为文本转语音,是一种能把文字内容转换为语音输出的技术。
chatGpt则是文本到文本技术,内容的性质没有发生改变。
这样对比起来,乍一看似乎文本转语音要复杂一点,因为输入和输出的种类都不同了。
chatGpt是根据文本回应文本,ttS则需要根据输入文本去输出波形从而表达声音。
但事实上难度的是完全反过来的,并且ttS技术要容易不少,因为它并不需要理解文本本身的含义,chatGpt则需要理解文本本身的意义,并进行合理的回应。
“文本首先需要一套语言学标注系统,将文本分词,然后标注音素音节和单词级别的信息,用以最后去合成语音。”
孟繁岐大概确认了一下现在常用的传统办法的水平:“目前的语音主要是基于语音库,这个库里存放了大量的文本和它的对应音频。这就像是素材库,根据需求把素材拿出来拼在一起。”
“最简单的办法,就是拼接合成。用标注系统跑一下输入的文本,得到了一大串语言学的标注。得到标注之后,直接从语音库里找对应的音频拼起来就好了。”
“现在步入了深度学习时代,完全可以用新做法了。比如,我可以直接用深度网络学习文本到声学特征的对应关系,这样就不再需要去标注文本了,不过最后还是需要声码器。”
语言相关的任务,万物皆可序列到序列,输入是一个序列,输出也是一个序列,其中的许多原理都是相通的。
只是做这件事情不能够再用传统的循环网络和长短期记忆办法了,那样有点跟不上节奏。
孟繁岐要将上次搜索引擎中已经加入的雏形transformer方法彻底实现完成,并发布出去。
Gpt的t方法是时候作为论文正式出现了!
>> --