AG旗舰厅
SERVICE PHONE
13899998888SERVICE PHONE
13899998888发布时间:2023-05-28 13:32:51 点击量:
AG旗舰厅对于ChatGPT的工作原理,一个常见的解释是根据统计学规律预测下一个词。
这一数据量是500008000,根据贝肯斯坦上限(Bekenstein bound)原理,如果把这些信息分配到空间当中,所需要的信息密度已经远超宇宙能承受的最大值。
与我们观察其输出时的情况相反,语言模型只是将其在庞大的训练数据中观察到的语素胡乱拼接在一起,根据概率生成文本,但不清楚文字背后的任何含义,就像一个随机的鹦鹉。
具体来说,下面的三行文本中,第一行纯粹是随机生成,第二行考虑了单词在英语中整体的出现概率,第三行则考虑了单词在前一个词后面出现的概率。
而n-gram模型根本不需要掌握其中的语义或理解其中的抽象概念,就能生成像模像样的句子。
Bayless提出,GPT必须学会抽象才能有如今的效果,至少GPT-4肯定如此。
比如Stockfish是最先进的国际象棋程序,如果仅通过对战而不看源码,是无法确定Stockfish是否在背谱。
而Stockfish的程序只占用了不到50MB的空间,根本不可能存下需要的所有棋谱。
仅在理论上进行说明是不充分的,因此研究人员还进行了两个实验,意图证明大模型在学习过程中已经抽象出了算法。
一个农夫有一条船,和狼、羊、菜,农夫要把这3样东西运到河到另一边,农夫每次最多只能通过这个船运一样东西,要防止狼吃羊、羊吃白菜(即不能在没有农夫在的情况下同时在同一岸边),该怎么过?
替换的目的是因为互联网上不太可能出现类似语料,可以判断大语言模型是不是真的掌握了通用方法。
如果GPT不是“随机鹦鹉”,那么它至少不会犯下只有“随机鹦鹉”才会犯的错误。
但它们并没有犯研究人员预想的“鹦鹉”错误——即在回答中出现狼、船AG旗舰厅、河等已被替换掉的词语。
如果让GPT学习数字排序,它们究竟是只会记住给出过的数字顺序,还是真的研究出排序算法呢?
假如从1-100中随机选择10个数字AG旗舰厅,并将其顺序打乱,将一共有这么多种情形:
如果再考虑数字的重复出现,又或者数字的数量发生变化,根本不可能存储如此之多的情形。
因此,只要GPT能够针对未知的排序问题给出正确的回答,便可以说明它们是真的研究出了排序算法。
研究人员训练了一款特斯拉前AI总监Andrej Kaparthy发明的语言模型nanoGPT,专门让它做数字排序AG旗舰厅。
这说明这款模型并不是仅仅根据学习的素材对未知的数字进行排序,而是已经掌握了背后的方法。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。
微信扫一扫