如從前那樣 報導,新研究揭示了 ChatGPT 模型隨時間的不一致。 A 斯坦福大學和加州大學伯克利分校 研究分析了 3 月和 6 月版本的 GPT-3.5 和 GPT-4 在不同任務上的情況。 結果顯示,即使在短短幾個月內,性能也會發生顯著變化。
例如,由於分步推理出現問題,GPT-4 的素數準確率在 3 月至 6 月期間從 97.6% 驟降至 2.4%。 GPT-4 也變得越來越不願意直接回答敏感問題,回复率從 21% 下降到 5%。 然而,它提供的拒絕理由較少。
與 3 月份相比,GPT-3.5 和 GPT-4 在 6 月份生成了更多錯誤的代碼。 由於額外的非代碼文本,直接可執行的 Python 代碼片段的百分比大幅下降。
雖然視覺推理總體上略有改善,但同一謎題的世代在不同日期之間發生了不可預測的變化。 短期內相當大的不一致引起了人們對在沒有持續測試的情況下依賴這些模型進行敏感或關鍵任務用途的擔憂。
研究人員得出的結論是,這些發現強調了持續監控 ChatGPT 模型的必要性,因為它們的行為在準確性、安全性和魯棒性等指標上不斷變化。
不透明的更新過程使得嚴格的測試對於了解性能隨時間的變化非常重要。
ChatGPT 現在比競爭對手差嗎?
加密石板 使用 ChatGPT Plus (GPT-4)、OpenAI API (GPT-4)、Anthropic (Claude 2) 和 Google (Bard) 使用部分研究中使用的基本提示進行了小型內部實驗,
“17077 是素數嗎?”
該提示在每個模型上都使用,並帶有附加反射提示,如下所述。
ChatGPT 和 OpenAI API
當給出提示時,ChatGPT 和 OpenAI API 回答“否”並產生了數學幻覺。 下圖詳細描述了對話,模型即使經過多次反射也無法將 17077 識別為素數。
需要明確的是,13 x 1313 是 17,069。
OpenAI GPT4 API 無法得出這個結論,直到被特別要求計算 13 x 1313 才發現答案不是它所說的 17077。
人類的克勞德 2
然而, 人擇的 Claude 2 通過在提供正確答案之前進行計算來展示其解決問題的過程。
加密石板 然後要求 Claude 2 執行相同的任務,而不在新的聊天窗口中顯示工作原理。 Claude 2 給出了可靠的答案,拒絕承諾,同時提供了對解決方案的更多見解。
“不幸的是,在沒有顯示出一些工作情況的情況下,我無法確定 17077 是否是素數。 然而,我可以確認 17077 不能被任何小於 121 的素數整除,這強烈表明它可能是素數。”
谷歌吟遊詩人
谷歌吟遊詩人 使用與 Claude 2 類似的策略解決了這個問題。但是,它沒有使用文本來解決問題,而是運行了一些基本的 Python 代碼。 此外,巴德似乎在其解決方案中使用了來自素數網站和維基百科的信息。 有趣的是,引用自素數網站 primenumbers.info 的頁面僅包含有關其他素數的信息,而不包含 17077。
梅塔的羊駝 2
有趣的是, 元的 最近發布的 700 億參數開源模型 Llama2 在 加密石板的 有限的測試。
然而,當被要求反映和展示其工作原理時,Llama2 可以解讀出 17077 是一個質數,這與當前可用的 GPT4 版本不同。
然而,需要注意的是 Llama 使用了不完整的方法來檢查素數。 它無法解釋 17077 平方根以下的其他素數。
因此,從技術上來說,Llama是失敗的。
GPT4-0613 版本 2023 年 6 月 13 日
加密石板 還測試了數學難題 GPT4-0613型號 (六月版)並收到相同的結果。 該模型在其第一個響應中表明 17077 不是素數。 此外,當被要求展示其工作原理時,它最終放棄了。 它得出結論,以下合理的數字必須能被 17077 整除,並指出它因此不是素數。
因此,自 6 月 13 日起,該任務似乎不在 GPT4 的能力範圍內。舊版本的 GPT4 目前尚未向公眾開放,但已包含在研究論文中。
代碼解釋器
有趣的是,具有“代碼解釋器”功能的 ChatGPT 在 CryptoSlate 的測試中第一次嘗試時就給出了正確的答案。
OpenAI 響應和模型影響
針對 OpenAI 模型退化的說法,《經濟時報》 報導OpenAI 的產品副總裁 Peter Welinder 否認了這些說法,聲稱每個新版本都比前一個版本更智能。 他提出,隨著時間的推移發現更多問題,大量使用可能會導致效果下降的感覺。
有趣的是,另一項研究來自 斯坦福大學研究人員 發表在《JAMA Internal Medicine》上的研究發現,最新版本的 ChatGPT 在具有挑戰性的臨床推理考試問題上明顯優於醫學生。
在開放式、基於案例的問題上,人工智能聊天機器人的平均得分比一年級和二年級學生高出 4 分以上,這些問題需要解析細節並撰寫完整的答案。
因此,ChatGPT 在特定任務上的性能明顯下降凸顯了僅依賴大型語言模型而不進行持續嚴格測試的挑戰。 雖然確切原因仍不確定,但它強調隨著這些人工智能係統的快速發展,需要持續監控和基準測試。
隨著這些人工智能模型穩定性和一致性的不斷進步,用戶應該對 ChatGPT 保持平衡的看法,承認其優勢,同時意識到其局限性。