微软和 Open AI 开发了一种新方法,用于优化成本太高而无法多次训练的海量 AI 模型,例如GPT-3。
微软研究院发布的一篇博客文章描述了一种称为-参数化(或 P)的技术,该技术利用发现小型和大型 AI 模型行为之间的相似性,以最大限度地减少进行优化所需的计算资源数量。
尽管您需要博士学位才能理解具体细节,但基本信息是:使用参数化,开发能够产生远优于当今可用性能的大规模 AI 模型将更便宜、更简单。
优化 AI 模型
正如博文中所解释的,大型 AI 模型难以有效训练的一个原因是,我们对它们的行为在扩展时的变化方式知之甚少。因此,人工智能模型越大,研究人员目前对它的预期就越不完善。
然而,-参数化通过利用不同大小的神经网络在某些条件下共享相同的最佳超参数(HP)的洞察力,提供了一种以更低的成本和更高的效率调整大规模模型的途径。
从本质上讲,这意味着可以向外推断小规模的调整过程并映射到更大的模型上,而不是直接调整整个数十亿参数的模型。
“P 参数化模型和选择学习率的原则性方法使任何人都可以更轻松地扩展深度神经网络的训练。如此优美的理论和实际影响的完美结合,”微软研究院实验室主任 Johannes Gehrke 说。
为了将理论付诸实践,微软与 OpenAI 合作在 GPT-3上释放-参数化,这是一种自然语言模型,其最大迭代由1750亿个参数组成。
“在参数化 GPT-3版本并在 P 中相对关注之后,我们调整了一个具有4000万个参数的小型代理模型,然后将最佳超参数组合复制到 GPT-3的 67亿个参数变体中,”微软解释说。
结果相当惊人。合作者设法创建了性能更高的 GPT-3版本,仅使用了67亿参数模型预训练中消耗的计算能力的7%。
为了帮助其他从业者从这些发现中受益,微软发布了一个PyTorch 包,旨在帮助将-参数化集成到他们现有的模型中,这在实践中可能会很挑剔。
然而,该公司还表示,关于 AI 模型的扩展还有很多问题尚待了解,并承诺将继续努力“为大规模机器学习提供更有原则的方法”。
0 留言