世界首個(gè) AI 程序員 Devin 視頻竟造假?
智者2024年4月15日消息,一個(gè)月前的3月13日,Cognition AI在推特上介紹了自家推出的Devin,并稱其為“世界上首個(gè)AI軟件工程師”,只需一句指令,它可端到端地處理整個(gè)開發(fā)項(xiàng)目。
Devin背后公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當(dāng)月宣布成功融資2100萬(wàn)美金。
如今Devin再度震撼硅谷——但這次是被打假。
油管程序員博主Internet of Bugs(以下簡(jiǎn)稱光頭哥)對(duì)Devin的視頻進(jìn)行了逐幀分析,逐一舉證說(shuō)明了Devin并不如演示中那般神奇。
甚至有“自己現(xiàn)寫bug然后當(dāng)場(chǎng)修復(fù)”的騷操作。
其它“罪證”,包括但不限于:
號(hào)稱能解決任何Upwork任務(wù),但演示中解決的問(wèn)題并不是prompt要解決的那一個(gè),做無(wú)用功;
看起來(lái)在修復(fù)bug,實(shí)際上修復(fù)的bug人類程序員根本就不會(huì)犯;
沒(méi)有意識(shí)到簡(jiǎn)單兩步就能解決問(wèn)題,花里胡哨一頓操作,其實(shí)是自己把任務(wù)搞復(fù)雜了;
修改代碼的水平一言難盡。
此外,光頭哥花了半個(gè)多小時(shí),把Devin演示視頻中的upwork任務(wù)完成了一遍——而Devin完成任務(wù)可能用時(shí)6個(gè)多小時(shí)。
此次出來(lái)聲張正義的光頭哥,從事軟件行業(yè)已經(jīng)35年。他首先聲明自己的立場(chǎng):我并不反對(duì)高科技,但我確實(shí)反對(duì)過(guò)度炒作。
他自己也經(jīng)常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。
事實(shí)上,在Devin剛推出時(shí)候,他就反對(duì)過(guò)“世界上第一個(gè)AI軟件工程師”這一說(shuō)法。
主創(chuàng)介紹,Devin在長(zhǎng)程推理和規(guī)劃上面下了很大功夫,可以規(guī)劃和執(zhí)行需要數(shù)千個(gè)決策才能完成的復(fù)雜軟件工程任務(wù)。
具體來(lái)說(shuō)有6大功能:
端到端構(gòu)建和部署程序,可以解決的不只是代碼問(wèn)題,還包括與之相關(guān)的整個(gè)工作流;
自主查找并修復(fù)bug;
訓(xùn)練和微調(diào)自己的AI模型;
修復(fù)開源庫(kù);
為成熟的生產(chǎn)庫(kù)做貢獻(xiàn);
超強(qiáng)學(xué)習(xí)能力,實(shí)時(shí)補(bǔ)足知識(shí)和能力短板。
Devin完整技術(shù)報(bào)告中顯示,在SWE-bench基準(zhǔn)測(cè)試中,無(wú)需人類輔助,Devin可解決13.86%的問(wèn)題——這個(gè)數(shù)據(jù)看起來(lái)不高,但其實(shí)已經(jīng)超過(guò)了此前所有AI大模型的成績(jī)。目前數(shù)一數(shù)二的GPT-4,在同個(gè)測(cè)試中的成績(jī)只有1.74%,且必須配備一個(gè)人類,提示它要處理哪些文件。