比A100再慢上不少。
别的什么乱七八糟的都先不提,按泰坦Z的定价算,光是买这些显卡就得整整三个亿美金。
这笔钱孟繁岐现在肯定是掏不起的,就算他掏得起,老黄也掏不出那么多泰坦Z来。
并且,这十万张显卡也不是凭空就能计算的,相应的主板电源cpU等其他配套设备,你也不能太差吧?
彼此之间的交互通讯设备,也得配齐,否则发挥不出这些显卡的全部能力。
这些东西准备好,价格又得翻一倍,至少得五六个亿美金。
设备运转起来,跟挖矿特别像,光是每天需要的电费也是百万级别的天文数字,训练一整个chatGpt出来的成本自然不低。
只是想要得到这个模型,就得大几个亿美金进去。后续chatGpt提供给用户使用,所需要的算力和设备只会更多。
因为训练模型只是单个实体在持续更新自己的内容,耗费的资源虽多,却是一次性的,一劳永逸。
而用户在使用的时候则是多个内容不再变化的实体持续推理,模型则需要反复根据用户不同的新输入一直生成回复。
虽然推理比训练的损耗小了许多,但也架不住百万千万的用户一起使用。
当时微软为了chatGpt的广泛使用,在六十多个数据中心,给openAI腾出了几十万张GpU显卡,简直是壕无人性。
惹得自家的员工都嫉妒坏了,为什么他们openAI可以用,我们微软自己的员工用不了?
这不公平!
“chatGpt级别的模型的大小还是跟现在我做过的那些差了太远了。”孟繁岐在心中开始飞速地计算了起来。
他需要估算出,自己到底大概需要多少张泰坦Z,一会才好跟老黄讨价还价。
深度学习的模型参数很容易计算,不过算完总是容易忘记。
孟繁岐有一套独特的办法,使得他可以对各个经典模型参数量之间的比例基本上了如指掌。
>> --