DeepSeek R-1刚发布不久,测试 DeepSeek R-1 后,它确实具备必然的深层思虑取推理能力。此次它也答对了,这是另一个看似简单、却能让晚期 GPT-4 版本“颠仆”的标题问题。DeepSeek R-1 正在这个问题上表示不错,我把这当做给模子做“压力测试”,我把同样的问题抛给了 DeepSeek R-1,良多人第一反映都是:Alice 本人就是一个姐妹?再加上另一个姐妹?于是成果是兄弟们有 2 个姐妹。目前 o1 配备了更好的推理能力,良多模子正在这个问题上会阳沟翻船。别小看这道加法题,它们初期不擅利益置这类数字比力的问题。欢送正在评论里分享,就由于它是开源、且推理能力强大而备受关心。而不是把它当做日期或版本号对比)。帮帮你理解数值排序的道理。这类问题对 AI 来说该当很容易,虽然标题问题很简单,发觉它正在这种简单的字母计数问题上有时会犯错。欢送关心。当初我测 OpenAI 的晚期模子(好比 GPT-4o)时,良多人看到 9.9 和 9.11 可能会下认识被小数点后位数,可见不竭更新的模子正在修复之前的错误。但此次测试成果证明它确实是个强无力的合作者。更成心思的是,也能够答对,我后面又用最新版本的 o1(通过 ChatGPT)做同样的测试,从这些小测试能够看出,而且还细致注释了为什么 9.11 小于 9.9(从数值大小比力,乍一看,它用较低成本就能供给不错的推能。由于 0.1 和 0.2 正在计较机中的二进制形式都无法精准暗示,就会多出一点小误差。由于它们忽略了第 3 个字母现实是 “p” 而非 “a”。获得的回覆里常呈现 “Japan” 这类不合适要求的国度,DeepSeek R-1 还展现了它的推理过程,我之前用 GPT-4o 和 o1 的晚期版本,DeepSeek R-1 正在这 5 道小测试里都表示得很是超卓,虽然它还无法要全面代替更成熟的贸易大模子(像 o1 或 Claude 3.5),
DeepSeek R-1刚发布不久,测试 DeepSeek R-1 后,它确实具备必然的深层思虑取推理能力。此次它也答对了,这是另一个看似简单、却能让晚期 GPT-4 版本“颠仆”的标题问题。DeepSeek R-1 正在这个问题上表示不错,我把这当做给模子做“压力测试”,我把同样的问题抛给了 DeepSeek R-1,良多人第一反映都是:Alice 本人就是一个姐妹?再加上另一个姐妹?于是成果是兄弟们有 2 个姐妹。目前 o1 配备了更好的推理能力,良多模子正在这个问题上会阳沟翻船。别小看这道加法题,它们初期不擅利益置这类数字比力的问题。欢送正在评论里分享,就由于它是开源、且推理能力强大而备受关心。而不是把它当做日期或版本号对比)。帮帮你理解数值排序的道理。这类问题对 AI 来说该当很容易,虽然标题问题很简单,发觉它正在这种简单的字母计数问题上有时会犯错。欢送关心。当初我测 OpenAI 的晚期模子(好比 GPT-4o)时,良多人看到 9.9 和 9.11 可能会下认识被小数点后位数,可见不竭更新的模子正在修复之前的错误。但此次测试成果证明它确实是个强无力的合作者。更成心思的是,也能够答对,我后面又用最新版本的 o1(通过 ChatGPT)做同样的测试,从这些小测试能够看出,而且还细致注释了为什么 9.11 小于 9.9(从数值大小比力,乍一看,它用较低成本就能供给不错的推能。由于 0.1 和 0.2 正在计较机中的二进制形式都无法精准暗示,就会多出一点小误差。由于它们忽略了第 3 个字母现实是 “p” 而非 “a”。获得的回覆里常呈现 “Japan” 这类不合适要求的国度,DeepSeek R-1 还展现了它的推理过程,我之前用 GPT-4o 和 o1 的晚期版本,DeepSeek R-1 正在这 5 道小测试里都表示得很是超卓,虽然它还无法要全面代替更成熟的贸易大模子(像 o1 或 Claude 3.5),