三種AI大型語言模型作為中學數學輔導助理的比較

2024/06/23
分享到

結果顯示：

ChatGPT 在所有任務上的表現並不均優於 Bard 和 Llama 2。

ChatGPT 僅在綜合解決方案任務中優於 Bard 和 Llama 2。

Bard 在綜合解法任務的表現並不比 Llama 2 好，這不支持我們的第二個假設。

我們得出結論，中學數學教師可以根據具體的輔導任務，使用 ChatGPT、Bard 和 Llama 2 的組合作為助手。

補充：2024 AI 進步神速 ChatGPT4o 與 ChatGPT1o (9月發表) 對數學邏輯推理問題已有相當的解題能力，人工智能會不斷地進步推新，我們期待更美好。

補充：2024/12/20， OpenAI公佈了其新的人工智能（AI）推理模型——o3和o3 mini ，作爲o1模型之後的下一代AI模型。o3在軟件工程、編寫代碼、競賽數學和掌握人類博士級別科學知識能力等方面均強於o1。據悉，OpenAI將確保新模型的可靠性和安全性後再提供給更廣泛的用戶使用，因此o3 mini將於2025年1月底前正式推出，而完整版的o3將在之後推出。