四平沟粤教育科技有限公司

首頁科技 正文
目錄

世界首個(gè) AI 程序員 Devin 視頻竟造假?

科技2024-04-15
智者2024年4月15日消息,一個(gè)月前的3月13日,Cognition AI在推特上介紹了自家推出的Devin,并稱其為“世界上首個(gè)AI軟件工程師”,只需一句指令,它可端到端地處理整個(gè)開發(fā)項(xiàng)目。Devin背后公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當(dāng)月宣布成功融資2100萬美金。如今Devin再度震撼硅谷——但這次是被打假...

Devin_副本.jpg

智者2024年4月15日消息,一個(gè)月前的3月13日,Cognition AI在推特上介紹了自家推出的Devin,并稱其為“世界上首個(gè)AI軟件工程師”,只需一句指令,它可端到端地處理整個(gè)開發(fā)項(xiàng)目。

Devin背后公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當(dāng)月宣布成功融資2100萬美金。

如今Devin再度震撼硅谷——但這次是被打假。

油管程序員博主Internet of Bugs(以下簡稱光頭哥)對Devin的視頻進(jìn)行了逐幀分析,逐一舉證說明了Devin并不如演示中那般神奇。

甚至有“自己現(xiàn)寫bug然后當(dāng)場修復(fù)”的騷操作。

其它“罪證”,包括但不限于:

號稱能解決任何Upwork任務(wù),但演示中解決的問題并不是prompt要解決的那一個(gè),做無用功;

看起來在修復(fù)bug,實(shí)際上修復(fù)的bug人類程序員根本就不會犯;

沒有意識到簡單兩步就能解決問題,花里胡哨一頓操作,其實(shí)是自己把任務(wù)搞復(fù)雜了;

修改代碼的水平一言難盡。

此外,光頭哥花了半個(gè)多小時(shí),把Devin演示視頻中的upwork任務(wù)完成了一遍——而Devin完成任務(wù)可能用時(shí)6個(gè)多小時(shí)。

此次出來聲張正義的光頭哥,從事軟件行業(yè)已經(jīng)35年。他首先聲明自己的立場:我并不反對高科技,但我確實(shí)反對過度炒作。

他自己也經(jīng)常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。

事實(shí)上,在Devin剛推出時(shí)候,他就反對過“世界上第一個(gè)AI軟件工程師”這一說法。

主創(chuàng)介紹,Devin在長程推理和規(guī)劃上面下了很大功夫,可以規(guī)劃和執(zhí)行需要數(shù)千個(gè)決策才能完成的復(fù)雜軟件工程任務(wù)。

具體來說有6大功能:

端到端構(gòu)建和部署程序,可以解決的不只是代碼問題,還包括與之相關(guān)的整個(gè)工作流;

自主查找并修復(fù)bug;

訓(xùn)練和微調(diào)自己的AI模型;

修復(fù)開源庫;

為成熟的生產(chǎn)庫做貢獻(xiàn);

超強(qiáng)學(xué)習(xí)能力,實(shí)時(shí)補(bǔ)足知識和能力短板。

Devin完整技術(shù)報(bào)告中顯示,在SWE-bench基準(zhǔn)測試中,無需人類輔助,Devin可解決13.86%的問題——這個(gè)數(shù)據(jù)看起來不高,但其實(shí)已經(jīng)超過了此前所有AI大模型的成績。目前數(shù)一數(shù)二的GPT-4,在同個(gè)測試中的成績只有1.74%,且必須配備一個(gè)人類,提示它要處理哪些文件。


標(biāo)簽AI

您暫未設(shè)置收款碼

請?jiān)谥黝}配置——文章設(shè)置里上傳

掃描二維碼手機(jī)訪問

文章目錄