【AI小雜談】語(yǔ)言模型與推理

2023-08-27 20:20:10 來(lái)源：?jiǎn)袅▎袅?/span>

最近出來(lái)了一個(gè)MathGPT，據(jù)說(shuō)數(shù)學(xué)能力非常強(qiáng)，并且已經(jīng)開(kāi)始測(cè)試了。我個(gè)人使用的體驗(yàn)還可以，畢竟這個(gè)東西主要是為了中小學(xué)數(shù)學(xué)題服務(wù)的，難度不至于特別高。

然而，自從大語(yǔ)言模型（LLM）出現(xiàn)以來(lái)，推理和數(shù)學(xué)能力就一直是關(guān)注的焦點(diǎn)，畢竟這里面涉及到的東西就多了，例如如何理解當(dāng)前的問(wèn)題、在數(shù)學(xué)問(wèn)題中如何避免幻覺(jué)、推理過(guò)程中對(duì)之前信息的記憶能力等等都會(huì)被考察到。不過(guò)，很遺憾的是，對(duì)于目前的LLM來(lái)說(shuō)，數(shù)學(xué)和推理依然是弱項(xiàng)。

(資料圖)

我們首先從最基本的一些知識(shí)來(lái)分析，這也是之前一個(gè)朋友在某個(gè)動(dòng)態(tài)的評(píng)論中和我討論了好幾輪的一個(gè)話題。

以ChatGPT為代表，現(xiàn)在大部分語(yǔ)言模型都是基于Transformer架構(gòu)的，并且訓(xùn)練方式簡(jiǎn)單來(lái)說(shuō)就是“預(yù)測(cè)下一個(gè)token”，token一般翻譯成“詞元”、“子詞”等，例如apple可能被拆分為“app”和“l(fā)e”，這倆都是token。當(dāng)然，如果你覺(jué)得理解起來(lái)有些難度，那么就簡(jiǎn)單理解成“預(yù)測(cè)下一個(gè)詞”就好，兩者只是粒度上的差別，所以后面以中文為例的話，我就當(dāng)做“預(yù)測(cè)下一個(gè)漢字”來(lái)舉例了。

舉個(gè)例子，假設(shè)我問(wèn)ChatGPT“在中國(guó)一般旺財(cái)指代哪種動(dòng)物？”，ChatGPT會(huì)把這段話作為輸入，首先預(yù)測(cè)并生成下一個(gè)字“旺”，然后把“在中國(guó)一般旺財(cái)指代哪種動(dòng)物？旺”作為輸入預(yù)測(cè)并生成“財(cái)”，就這樣一步步地生成整個(gè)回答“旺財(cái)在中國(guó)一般指代狗”。在使用的時(shí)候是這樣，訓(xùn)練的時(shí)候也是這樣，也就是說(shuō)，在ChatGPT“預(yù)”訓(xùn)練期間它所做的就是使得預(yù)測(cè)下一個(gè)詞的精度盡可能高。

所以從根本上來(lái)說(shuō)，ChatGPT并不會(huì)像我們學(xué)習(xí)一樣，一開(kāi)始掌握概念、掌握方法，然后一步步分析問(wèn)題，他所做的只是根據(jù)當(dāng)前的輸入預(yù)測(cè)出下一個(gè)詞罷了。

那么問(wèn)題來(lái)了，為什么ChatGPT能夠有很驚艷的表現(xiàn)，而且看起來(lái)至少能做很多低難度的數(shù)學(xué)題呢？

關(guān)鍵就在于巨量的訓(xùn)練語(yǔ)料，因?yàn)椤?+1=2”這樣的東西在訓(xùn)練語(yǔ)料中反復(fù)出現(xiàn)，ChatGPT從中學(xué)到了“1+1=”后出現(xiàn)“2”的幾率更高，或者說(shuō)，仍然是基于統(tǒng)計(jì)的。

當(dāng)然，大模型還有很多神秘的地方，例如很多研究都表明語(yǔ)言模型不是只會(huì)停留在簡(jiǎn)單的統(tǒng)計(jì)和記憶階段，他們也會(huì)在內(nèi)部模擬一些很抽象的東西，一個(gè)例子就是代碼追蹤。

這里舉個(gè)簡(jiǎn)單的例子：“a=10；b=20；c=a+b；d=c/2”這段話中并沒(méi)有顯示給出c的值，但是我們是可以發(fā)現(xiàn)ChatGPT在內(nèi)部一些地方模擬出c的值的（這是MIT的一篇研究論文，實(shí)際上比這個(gè)復(fù)雜，這里為方便理解做了簡(jiǎn)化），這說(shuō)明大模型是超越了簡(jiǎn)單的統(tǒng)計(jì)的，當(dāng)然究竟超過(guò)了多少仍然是一個(gè)有待研究并且要研究很久的的問(wèn)題。

當(dāng)然，雖然“大模型學(xué)到了一些抽象的東西”基本上可以算的上是共識(shí)了，但這并不意味著當(dāng)前的大模型就會(huì)推理了，有篇文章的標(biāo)題就很直白《GPT-4 can't reason》，說(shuō)明大模型在解決一些推理問(wèn)題（大部分都是數(shù)學(xué)題）時(shí)會(huì)犯很多人類完全不會(huì)犯的奇怪的錯(cuò)誤，所以即使很多時(shí)候我們可能覺(jué)得ChatGPT能解決一些復(fù)雜問(wèn)題，也不意味著它真的在做推理。

當(dāng)然，這事情還可以繼續(xù)“滑坡”，甚至直接滑到哥德?tīng)柌煌陚湫远ɡ磉@堵嘆息之墻那里，當(dāng)然這里就不展開(kāi)談了。

從我的觀察來(lái)看，目前很多人看待AI都陷入了兩個(gè)極端，要么直接批判AI什么都做不到，要么把AI目前亮眼的表現(xiàn)捧得很高。

不過(guò)很多時(shí)候也只是視角的問(wèn)題，有些人預(yù)設(shè)了“AI能解決一切問(wèn)題”，然后發(fā)現(xiàn)它從理論上就做不到，然而如果預(yù)設(shè)了“AI什么都做不到”，那“為什么AI有時(shí)候確實(shí)能有亮眼的表現(xiàn)”這個(gè)問(wèn)題就值得研究了。算了，這個(gè)問(wèn)題要談起來(lái)確實(shí)太復(fù)雜了，雜談就懶得展開(kāi)了

最后還是需要說(shuō)，不要無(wú)條件相信大模型的輸出，這是“盡信書則不如無(wú)書”的最好的試金臺(tái)。

99久久人妻无码精品系列蜜桃|欧美一区二区三区乱码AⅤ|精品国语对白精品自拍视|在线视频免费观看一区|98av国产欧美日韩亚洲欧洲|人妻丰满熟妇av无码区二区三区|强乱中文字幕av一区乱码|亚洲日本一区二区

【AI小雜談】語(yǔ)言模型與推理

相關(guān)閱讀

每日推薦

圖片新聞

【AI小雜談】語(yǔ)言模型與推理

龍龍高鐵福建段首座牽引變電所成功

北京優(yōu)化受災(zāi)市政交通基礎(chǔ)設(shè)施恢復(fù)

48小時(shí)頻道點(diǎn)擊排行

視覺(jué)