火鹰视角

关注互联网,关注技术开发,透析与分享移动互联网行业最新动态
当前位置: 网站首页 > > GPT-4应用的新篇章:幻象还是现实?

GPT-4应用的新篇章:幻象还是现实?

时间:时间: 2023-05-31 14:59:23   阅读: 分类:APP开发
人们对AI的认知有着许多误区和歧义,而像ChatGPT和GPT-4这样的大型语言模型(LLM)却在全球范围内引起了极大的关注。

五月二十四日,人们对AI的认知有着许多误区和歧义,而像ChatGPT和GPT-4这样的大型语言模型(LLM)却在全球范围内引起了极大的关注。这些功能强大的AI系统展现出迷人的魅力,但是,研究人员发现,很多人对它们的了解还只是皮毛。斯坦福大学的研究人员最近进行了一项研究,结果表明,大型语言模型(LLM)具备的一些能力可能被人们误解了。他们发现,在选择正确的指标来评估LLM时,其所谓的“涌现能力”会消失。 这项研究揭开了大型语言模型(LLM)神秘面纱,同时质疑了“规模是创造更好的大型语言模型唯一途径”的观点。事实上,已经有一些研究测试了大型语言模型(LLM)的涌现能力,该能力被定义为“在较小的模型中不存在,但在较大的模型中存在的能力”。简单来说,机器学习模型在某些任务上表现随意,直到其大小达到一定的阈值。然而,我们需要注意的是,只有在选择正确的评估指标后,大型语言模型(LLM)才会表现出这种涌现能力;否则,它们只是一个普通的AI系统。如果你看图1,将会发现LLM表现出的涌现能力,在一定范围内,性能突然跃升,这进一步说明了该研究的重要性。


大型语言模型(LLM)的涌现能力一直备受瞩目,研究表明在模型大小达到一定阈值之前,其完成任务的性能保持在随机水平。然而,当模型规模变大时,它们的性能会跃升并开始提高。研究人员对LaMDA、GPT-3、Gopher、Chinchilla和PaLM等具有1000多亿个参数的大型语言模型(LLM)的涌现能力进行了研究,并使用了多种测试来了解它们在处理复杂语言任务方面的局限性。这项新研究对大型语言模型(LLM)所谓的涌现能力提出了不同的看法,指出涌现能力的观察可能是由于指标选择引起的,而不是规模。他们发现,在衡量任务性能时,一些指标可能显示出大规模的涌现能力,而另一些则显示出持续的改进。实际上,LLM模型输出的令牌逐渐接近正确的令牌,但由于最终答案与基本事实不同,它们都被归类为不正确,直到它们达到所有标记都是正确的阈值。因此,如果对相同的输出使用不同的指标,涌现能力就会消失,LLM模型的性能也会平衡提高。这项研究结果将进一步打破大型语言模型(LLM)神秘光环,同时也引发了人们对于“规模是创造更好的大型语言模型唯一途径”的观点的质疑。


研究人员最近发现,在某些情况下,大型语言模型(LLM)表现出的涌现能力可能是由于缺乏足够的测试数据。他们通过创建更大的测试数据集来验证这一点,并发现随着测试数据量的增加,LLM模型的性能不再呈现出不稳定性。此外,研究人员还试图将涌现能力应用于其他类型的深度神经网络,如卷积神经网络(CNN),结果证明在使用非线性指标评估LLM模型性能时,同样会观察到涌现能力的出现。

这项研究得出的结论对于了解LLM性能至关重要,因为它们可以帮助我们更好地理解扩大LLM模型规模的影响。一些研究者认为规模是创造更好的LLM的唯一途径,但这项研究表明,涌现能力可能是研究人员选择的产物,而不是特定任务上模型的基本属性。这个结论将有助于鼓励研究人员探索创建更小的LLM的替代方案,并且还可以为实验室投资训练新LLM提供更好的技术衡量和预测改进,以更好地评估更大LLM模型的效益和风险。

尽管只有大型科技公司才能负担得起训练和测试大型LLM的成本,但规模较小的公司也可以对较小的模型进行研究。有了这些指标,他们将能够更好地探索这些较小的LLM的功能,并找到新的研究方向来改进它们。总之,这项研究为我们提供了一个更加清晰的视角,帮助我们更好地了解LLM的性能,并激发了寻找创造更优秀LLM模型的替代方案的动力。

火鹰科技-移动应用开发/app开发/小程序开发
客服咨询
立即报价
热线电话
扫描二维码
返回顶部