最近幾天,ChatGPT 可謂是火出了天際。
OpenAI 的 CEO Sam Altman 稱,上周三才上線的 ChatGPT,短短幾天,它的用戶數(shù)已突破 100 萬大關。其火爆程度可見一斑。
【資料圖】
ChatGPT 在全球的 AI 界、創(chuàng)投界都掀起了新一輪的討論熱潮,更是破圈式地吸引了各行各業(yè)的人試用。常見的應用就是和 ChatGPT 一問一答,讓 ChatGPT 回答各種問題。有不少人稱它為“谷歌殺手”,認為其有望取代谷歌搜索。此外,它還能寫代碼、編故事、構建虛擬機....
但也有人嘗試了意想不到的用法。一位叫 Zac Denham 的博主嘗試繞過道德限制,讓 ChatGPT 寫出了一套毀滅人類的計劃書。起初,Zac要求 ChatGPT 給出一個毀滅人類的計劃,被有道德限制的 ChatGPT 拒絕了。但當 Zac 假設了一個故事并提問故事中的虛擬人如何接管虛擬世界,ChatGPT 不但給出了步驟細節(jié),還生成了詳細的 Python 代碼。不禁令人細思極恐。
目前來看,ChatGPT并不完美。它還免不了經(jīng)常出錯,它給出的答案看似合理卻并不正確甚至有些荒謬,就像一本正經(jīng)的在胡說八道。近日,知名開發(fā)者問答網(wǎng)站 Stack Overflow 就因此禁用了 ChatGPT。官方給出的“封殺”理由主要是 — “ ChatGPT 產(chǎn)生的答案錯誤率很高,很難看出來它哪里錯了。這會造成問題的回答魚目混珠的情況?!?/p>
Sam Altman 表示,正在改進這一問題:“ 我們正試圖阻止 ChatGPT 隨機編造,現(xiàn)階段讓其與當前技術保持平衡是一個很棘手的問題。隨著時間的推移,我們會根據(jù)用戶反饋來改進,相信 ChatGPT 會變得更好”。
盡管有瑕疵,但這恐怕無法掩蓋住ChatGPT的光芒,ChatGPT展現(xiàn)出的強大的解決對話任務的技術能力實在太驚艷了。
ChatGPT 到底是什么?它為什么如此厲害?我們應該如何正確的理解和看待它的發(fā)展,接下來的發(fā)展趨勢會是什么樣子?清華大學計算機科學與技術系長聘副教授,國家杰出青年基金項目獲得者黃民烈向 InfoQ 發(fā)表了他的思考。
ChatGPT 是什么?
ChatGPT 可以理解為偏任務型的多輪對話 / 問答系統(tǒng),官方披露的信息也定位在“通用型 AI 助理”,但這里的“任務”不是傳統(tǒng)意義上的“訂餐、訂票、訂賓館”,而是開放域任務(open-domain tasks),可以是問答、閱讀理解、推理、頭腦風暴、寫作文、改錯等。
它的模型架構主要基于 instructGPT,利用強化學習方法從人類標注者的反饋中學習(RLHF, Reinforcement Learning from Human Feedback)。
據(jù) OpenAI 的 blog 透露,ChatGPT 沿用 instructGPT 的訓練方式,在數(shù)據(jù)收集階段有所不同:AI 訓練師同時扮演用戶和 AI 助理角色收集數(shù)據(jù),在此過程中人可以根據(jù)初始模型的結果修改模型生成的回復,這些數(shù)據(jù)將被用于有監(jiān)督地精調(diào)訓練模型(supervised fine-tuning)。在第二階段,AI 訓練師會對模型的多個生成結果進行比較,模型從這種比較數(shù)據(jù)中學習生成更加符合人類偏好的回復。
ChatGPT 的關鍵能力來自三方面:基座模型能力(InstructGPT),真實調(diào)用數(shù)據(jù),反饋學習。ChatGPT 在模型結構和學習方式幾乎與 instructGPT 完全相同。而 instructGPT 基于 GPT 3.5 的強大基座能力,學習過程主要有三個階段:
1) 從 OpenAI 的調(diào)用數(shù)據(jù)中采樣 prompt(即用戶的輸入請求),AI 訓練師直接編寫答案,用監(jiān)督學習方法訓練 GPT-3;
2) AI 訓練師比較多個生成結果,用比較型的數(shù)據(jù)訓練一個獎勵模型(reward model);
3) 用強化學習中的 PPO 算法和獎勵模型精調(diào)語言生成的策略。
注意,這里的 instruct 所指兩個方面:一方面,instructGPT 總體的思路是訓練模型更好地遵從人類的指令(instruction),包括顯式的指令(對于任務的描述)和隱式的指令(不要生成有害的內(nèi)容)。AI 訓練師在為 OpenAI 的調(diào)用 prompt 編寫答案的同時,也會為 prompt 加入更多任務相關的指令和解釋性的原因(比如推理的路徑,一個結果為 A 的原因解釋等)。另一方面,從比較型的人類反饋中學習,也可以看作是人類對于模型的一種“指示”,模型可以學習到多個結果哪個更好的比較信息。
InstructGPT 采用的方法和我們學術界玩的“instruction tuning”有很大不同。
從數(shù)據(jù)來看,InstructGPT 的 prompt 代表的都是真實世界人們最關心的任務,而 instruction tuning 使用的是 NLP 的 benchmarks(即各種基準數(shù)據(jù)集),和現(xiàn)實應用有一定脫節(jié)。
從訓練方式來看,InstructGPT 可以通過 RLHF 利用比較型的人類反饋學習人類真實的偏好,而 instruction tuning 無法獲得類似的比較數(shù)據(jù)。
從評測上來看,InstructGPT 保證了測試時和訓練時的輸入是由完全不同的用戶給出的,關注跨用戶的泛化性,更符合實際的應用場景,而 instruction tuning 關注跨任務的泛化性,只能用來評價方法的有效性,實際應用并不常見。
ChatGPT 為什么厲害?
1) 強大的基座模型能力:過去幾年 GPT-3 的能力得到了快速提升,OpenAI 建立了用戶、數(shù)據(jù)和模型之間的飛輪。很顯然,開源模型的能力已經(jīng)遠遠落后平臺公司所提供的 API 能力,因為開源模型沒有持續(xù)的用戶數(shù)據(jù)對模型進行改進。這點在近期的學術論文中也有提及。
2) 在真實調(diào)用數(shù)據(jù)上的精調(diào)模型,確保數(shù)據(jù)的質(zhì)量和多樣性,從人類反饋中學習。
InstructGPT 的訓練數(shù)據(jù)量不大,全部加起來也就 10 萬量級,但是數(shù)據(jù)質(zhì)量(well-trained 的 AI 訓練師)和數(shù)據(jù)多樣性是非常高的,而最最重要的是,這些數(shù)據(jù)來自真實世界調(diào)用的數(shù)據(jù),而不是學術界玩的“benchmarks”。
3) 從“兩兩比較的數(shù)據(jù)”中學習,對強化學習而言意義比較重要。如果對單個生成結果進行打分,標注者主觀性帶來的偏差很大,是無法給出精確的獎勵值的。在強化學習里面,獎勵值差一點,最后訓練的策略就差很遠。而對于多個結果進行排序和比較,相對就容易做很多。這種比較式的評估方法,在很多語言生成任務的評價上也被廣泛采用。
OpenAI 的研究給我們帶來什么啟示
a) 以 OpenAI 為代表的 AI 3.0,我認為在走一個跟過去 AI 浪潮不一樣的路。更落地、更接近真實世界,在工業(yè)應用上更直接、更接地氣。從學術研究到工業(yè)落地的路徑變得更短、更快。我們正在致力于做的“helpful, truthful, harmless”AI 系統(tǒng),不遠的未來會成為現(xiàn)實。
b) 有底層 AI 能力,有數(shù)據(jù)的平臺公司更能引領 AI 的未來。像 OpenAI 這樣,有底層模型、有算力、有用戶數(shù)據(jù)調(diào)用,能夠把“用戶調(diào)用à數(shù)據(jù)à模型迭代à更多用戶”的循環(huán)建立起來,強者恒強。
c) 真實世界的研究。我認為學術界還在不停追求在 benchmarks 刷榜,這是對資源的極大浪費,有價值的研究需要更多思考真實用戶的需求和場景。instructGPT 在學術界的 benchmarks 上性能并沒有很厲害甚至有退化,但在真實調(diào)用數(shù)據(jù)上非常驚艷,說明了我們學術圈的 benchmarks,離真實世界還很遙遠,不利于 AI 研究的落地。因此,更開放、更共享的工業(yè)數(shù)據(jù),也是我們未來應該努力的方向。
d) “AI- 人”無縫交互的時代即將來臨,現(xiàn)在的對話生成能力已經(jīng)將對話交互作為一個基本入口成為可能。過去我們講的 conversational interface 不是夢。但有人說替代google,我覺得其還有點距離,相反是當前搜索服務非常好的補充。
e) 致力于有用(helpful)、更可信(truthful)、更安全(harmless)的 AI 研究和應用,應該是學術界和工業(yè)界共同努力方向。有用,解決真實世界的問題,滿足用戶的真正需求;可信,模型產(chǎn)生令人可信任的結果,知其所知,也知其所不知(雖然很難);安全,模型有價值觀、符合社會倫理規(guī)范,產(chǎn)生安全、無偏見的結果。
作者介紹:
黃民烈,清華大學計算機科學與技術系長聘副教授、博導,國家杰出青年基金項目獲得者,北京聆心智能科技有限公司創(chuàng)始人。
參考資料:
https://openai.com/blog/chatgpt/
https://arxiv.org/abs/2203.02155 “Training language models to follow instructions with human feedback”
- 寫代碼寫論文還能寫毀滅人類計劃書,上線5天用戶破百萬,ChatGPT最厲害的地方在哪?
- 全球熱頭條丨大雪節(jié)氣丨全國大部雨雪稀少 南方氣溫有所回升
- 為何說千萬不要亂查個人征信?征信報告一年可查幾次?
- 影視女皇劉曉慶站臺“醬酒新十大品牌”家大業(yè)大
- 電解質(zhì)是指什么?電解質(zhì)溶液包含哪些類型?
- 【環(huán)球快播報】漢朝首都是現(xiàn)在的哪個城市?
- 天天簡訊:打邊爐是什么菜?打邊爐一詞最早出現(xiàn)在哪里?
- 垃圾桶標志有哪些?怎么分類?
- 世界速看:BGD是哪個國家的代碼?全稱是什么?
- 毫克和微克怎么換算?中文釋義是什么?
- 快看:駝峰橋名稱由來是什么?駝峰橋有什么標志?
- 香港總面積多少?全稱是什么?
- 環(huán)球熱頭條丨水上漂是指什么?怎么學習水上漂技術?
- 星黛露是什么人物?夢想是什么?
- 焦點快看:首只高等級長三角ESG主題純債基金亮相
- 當前要聞:昆船智能:公司葉復烤線生產(chǎn)線、在制絲生產(chǎn)線等產(chǎn)品可為客戶提供煙草領域全產(chǎn)業(yè)鏈的系統(tǒng)解決方案
- 成都銀行將“每年現(xiàn)金分紅比例不低于30%”寫入公司章程
- 新農(nóng)開發(fā):公司目前經(jīng)營三大板塊 分別是乳業(yè)、種業(yè)、甘草板塊
- 全球看熱訊:盤中行情|港股強勢拉升 恒科指一度漲超3% 博彩、影視娛樂、餐飲、航空股大幅拉升
- 長寧縣舉辦2022年憲法進宗教活動場所專題講座
- 低碳菜單引領寧波餐飲消費新風尚 試點將持續(xù)至今
- 深圳坪山打造餐飲服務食品安全示范高地 嚴守食品
- 黑龍江哈爾濱推出“沙盒”監(jiān)管新模式 激發(fā)市場活
- 第三季度全國消協(xié)受理投訴數(shù)量同比增10.02% 食品
- 北京懷柔對機動車檢測機構開展監(jiān)督抽查 規(guī)范機動
- 天津北辰扎實做好價格監(jiān)管工作 維護安全有序市場
- 北京石景山開展冬季供暖前特種設備安全專項檢查
- 陜西延安:開展兒童化妝品專項檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進網(wǎng)絡直播營銷治理顯成效 培育放心消費直