將 ChatGPT 的功能與 Anthropic 的 Claude 2、Google 的 Bard 和 Meta 的 Llama2 等替代方案進行基準測試

如從前那樣報導，新研究揭示了 ChatGPT 模型隨時間的不一致。 A 斯坦福大學和加州大學伯克利分校研究分析了 3 月和 6 月版本的 GPT-3.5 和 GPT-4 在不同任務上的情況。結果顯示，即使在短短幾個月內，性能也會發生顯著變化。

例如，由於分步推理出現問題，GPT-4 的素數準確率在 3 月至 6 月期間從 97.6% 驟降至 2.4%。 GPT-4 也變得越來越不願意直接回答敏感問題，回复率從 21% 下降到 5%。然而，它提供的拒絕理由較少。

與 3 月份相比，GPT-3.5 和 GPT-4 在 6 月份生成了更多錯誤的代碼。由於額外的非代碼文本，直接可執行的 Python 代碼片段的百分比大幅下降。

雖然視覺推理總體上略有改善，但同一謎題的世代在不同日期之間發生了不可預測的變化。短期內相當大的不一致引起了人們對在沒有持續測試的情況下依賴這些模型進行敏感或關鍵任務用途的擔憂。

研究人員得出的結論是，這些發現強調了持續監控 ChatGPT 模型的必要性，因為它們的行為在準確性、安全性和魯棒性等指標上不斷變化。

不透明的更新過程使得嚴格的測試對於了解性能隨時間的變化非常重要。

ChatGPT 現在比競爭對手差嗎？

加密石板 使用 ChatGPT Plus (GPT-4)、OpenAI API (GPT-4)、Anthropic (Claude 2) 和 Google (Bard) 使用部分研究中使用的基本提示進行了小型內部實驗，

“17077 是素數嗎？”

該提示在每個模型上都使用，並帶有附加反射提示，如下所述。

ChatGPT 和 OpenAI API

當給出提示時，ChatGPT 和 OpenAI API 回答“否”並產生了數學幻覺。下圖詳細描述了對話，模型即使經過多次反射也無法將 17077 識別為素數。

需要明確的是，13 x 1313 是 17,069。

OpenAI GPT4 API 無法得出這個結論，直到被特別要求計算 13 x 1313 才發現答案不是它所說的 17077。

人類的克勞德 2

然而，人擇的 Claude 2 通過在提供正確答案之前進行計算來展示其解決問題的過程。

加密石板 然後要求 Claude 2 執行相同的任務，而不在新的聊天窗口中顯示工作原理。 Claude 2 給出了可靠的答案，拒絕承諾，同時提供了對解決方案的更多見解。

“不幸的是，在沒有顯示出一些工作情況的情況下，我無法確定 17077 是否是素數。然而，我可以確認 17077 不能被任何小於 121 的素數整除，這強烈表明它可能是素數。”

谷歌吟遊詩人

谷歌吟遊詩人使用與 Claude 2 類似的策略解決了這個問題。但是，它沒有使用文本來解決問題，而是運行了一些基本的 Python 代碼。此外，巴德似乎在其解決方案中使用了來自素數網站和維基百科的信息。有趣的是，引用自素數網站 primenumbers.info 的頁面僅包含有關其他素數的信息，而不包含 17077。

梅塔的羊駝 2

有趣的是，元的最近發布的 700 億參數開源模型 Llama2 在 加密石板的 有限的測試。

然而，當被要求反映和展示其工作原理時，Llama2 可以解讀出 17077 是一個質數，這與當前可用的 GPT4 版本不同。

然而，需要注意的是 Llama 使用了不完整的方法來檢查素數。它無法解釋 17077 平方根以下的其他素數。

因此，從技術上來說，Llama是失敗的。

GPT4-0613 版本 2023 年 6 月 13 日

加密石板 還測試了數學難題 GPT4-0613型號（六月版）並收到相同的結果。該模型在其第一個響應中表明 17077 不是素數。此外，當被要求展示其工作原理時，它最終放棄了。它得出結論，以下合理的數字必須能被 17077 整除，並指出它因此不是素數。

因此，自 6 月 13 日起，該任務似乎不在 GPT4 的能力範圍內。舊版本的 GPT4 目前尚未向公眾開放，但已包含在研究論文中。

代碼解釋器

有趣的是，具有“代碼解釋器”功能的 ChatGPT 在 CryptoSlate 的測試中第一次嘗試時就給出了正確的答案。

OpenAI 響應和模型影響

針對 OpenAI 模型退化的說法，《經濟時報》報導OpenAI 的產品副總裁 Peter Welinder 否認了這些說法，聲稱每個新版本都比前一個版本更智能。他提出，隨著時間的推移發現更多問題，大量使用可能會導致效果下降的感覺。

有趣的是，另一項研究來自斯坦福大學研究人員發表在《JAMA Internal Medicine》上的研究發現，最新版本的 ChatGPT 在具有挑戰性的臨床推理考試問題上明顯優於醫學生。

在開放式、基於案例的問題上，人工智能聊天機器人的平均得分比一年級和二年級學生高出 4 分以上，這些問題需要解析細節並撰寫完整的答案。

因此，ChatGPT 在特定任務上的性能明顯下降凸顯了僅依賴大型語言模型而不進行持續嚴格測試的挑戰。雖然確切原因仍不確定，但它強調隨著這些人工智能係統的快速發展，需要持續監控和基準測試。

隨著這些人工智能模型穩定性和一致性的不斷進步，用戶應該對 ChatGPT 保持平衡的看法，承認其優勢，同時意識到其局限性。

來源鏈接

將 ChatGPT 的功能與 Anthropic 的 Claude 2、Google 的 Bard 和 Meta 的 Llama2 等替代方案進行基準測試

Related Posts

Venom 區塊鏈在兩個月內達到 100 萬個測試網錢包

已知使用門羅幣和比特幣的勒索軟件組織瞄準了意大利資產管理公司

SEC 訴 Coinbase 訴訟的關鍵日期已定，初步辯論將於 8 月進行

同意開發者的綜合指南（第 2 部分）

美國證券交易委員會表示 Ripple 裁決的部分內容“錯誤決定”，暗示將提起上訴

發佈留言取消回覆

在試圖拯救它之後，庫爾特施維特斯的工作室——他逃離了納粹德國，成為了英格蘭最偉大的荒誕主義者之一——將被出售

NFT 藝術博物館是個好主意

以太坊的下一次升級即將到來…… | 通過 Satvik Sharma | 首都 | 2023年2月

IBM 幫助企業隨時隨地針對所有數據擴展 AI 工作負載

Venom 區塊鏈在兩個月內達到 100 萬個測試網錢包

現代藝術博物館受託人萊昂·布萊克就其與杰弗裡·愛潑斯坦的關係與美屬維爾京群島達成和解

萊特幣 2023 年減半解釋 + 這對 LTC 意味著什麼

DOGE 上漲 9%，狗狗幣交易量創 16 週新高

雪崩價格預測，目標是 30 萬億美元的行業

斯坦·李 NFT 系列瞬間售空，價值暴漲 500%

幣安計劃八月在日本推出，考慮推出穩定幣

大學應該為學生提供比特幣以提高參與度並增加價值

獲取免費通訊

類別

網站地圖

將 ChatGPT 的功能與 Anthropic 的 Claude 2、Google 的 Bard 和 Meta 的 Llama2 等替代方案進行基準測試

ChatGPT 現在比競爭對手差嗎？

ChatGPT 和 OpenAI API

人類的克勞德 2

谷歌吟遊詩人

梅塔的羊駝 2

GPT4-0613 版本 2023 年 6 月 13 日

代碼解釋器

OpenAI 響應和模型影響

Related Posts

發佈留言 取消回覆

獲取免費通訊

類別

網站地圖

發佈留言取消回覆