铁书网

字:
关灯 护眼
铁书网 > 重生之AI教父 > 208. 真的吗?我不信

208. 真的吗?我不信

>
    比如【滚】,音形就哥悟嗯,其实就是类似拼音的一种记录方式,它比字形更接近最后的发音情况,更加一一对应。

    并且,如果只看字形,就很难处理多音字的问题,前端处理的过程中,就可以根据前后文判断这个多音字在这里到底是如何发音。

    转换成为音形之后,就不会读错了。

    再有就是语言的韵律和节奏了,最初文本生成的语音,都是机械冰冷的同一个音调,毫无感情可言,与人类相去甚远。

    目前,在感情上发音技术还是有很大的上升空间,但在节奏停顿上,已经进步很大了,不会断句断在非常奇怪的位置上。

    模型的输入是被语言系统标注后的音素,输出则是梅尔频谱。频谱最后通过声码器,才会变成语音。

    小学二年级的同学们都知道,信号有两种表示方式,时域和频域。一般的语音、音乐都是时域信号,对这些信号做傅里叶变换,就能够得到信号的频域表示。

    梅尔频谱就是一种压缩之后的频谱,为了尽量减少数据的大小,同时也更加适配人耳的需求。

    比如人耳对低频敏感,对高频则分不太清,因而梅尔频谱对不同的范围做了不同程度的取舍,用更小的数据量尽可能地还原了声音的信息。

    这项80多年前的技术,仍旧被广泛使用当中。

    “虽然我主要做的东西是第二步中的声学模型,但现在的第三步声码器有些太落后了,我最好同时也做一版更新,搭配使用。”

    声码器是根据梅尔频谱图生成声音波形的生成式模型,这正好在孟繁岐已经做了不少工作的方向上。

    顺手为之,直接把文本和语音之间的来回转换一步给它做到位了。

    此时此刻,若是伊利亚等人知道了孟繁岐的打算,肯定会化身鲁豫,本能地说出:“真的吗?我不信。”

    哪有进入一个不大一样的领域之后,不造螺丝直接造飞机的?

    只是让你做一个翻译页面上的本文发声功能,你小子怎么直接就想着给整个技术方向都颠覆了呢?

     >> --
『加入书签,方便阅读』
内容有问题?点击>>>邮件反馈
热门推荐
请君轮回汉景故事我的低保,每天到账1000万预谋心动人类失踪,幸好我有亿万克隆体直播鉴宝:你这精灵可不兴育啊!