跳转到主要内容
Chal1ce blog

Deepseek-R1-lite

对于DeepSeek-r1-lite做的几个小测试

聊聊deepseek新发布的国产"o1"大模型: Deepseek-R1-lite

聊聊deepseek昨天新发布的R1 Lite,每天50次使用,国产“o1”了属于是,据他们官方介绍,目前还处于测试阶段,后续会把R1模型和技术报告开源,并且提供API服务。

(主要是他们家的价格是真香不是么)

而从他们家的帖子也可以看到,这次的R1在两个数据集测试上领先了o1-preview-level的分数,代码和数学能力都比较强。不过具体的模型细节还得等他们把技术报告开源才能知道。

下面是昨天对它的一些测试:

第一个问题是“strawberry里面有多少r”,没想到第一个问题就问倒它了,但是这个深度思考0s让我有点疑惑

于是我把问题重新问了一遍,与刚才不同的是,我把问号去掉了,结果模型居然能从推理思考里面给出正确答案了。

它的推理过程也很完善,基本是推理->验证->再验证->再验证->给出答案。

之后我又从 matheval 找了几道数学题给它测试,先从24高考数学题开始:

一开始模型已经推理出是A选项正确答案了,然后还疑惑为什么B不是正确选项,之后就开始了自我纠正重新推理计算,最后确认答案就是A选项。那再给它MMLU的数学题看看。

可惜的是这道题模型做错了,在推理过程中它虽然没有遗漏其他咽弓提供的作用,但是最后它只选择了第二个,正确选择应该是第二和第三(D选项)

然后我又测试了字符串逆置问题:

我让它将“there is someone there”这句话的字母倒转,这里它给出了错误的答案,不过我也反思了一下,我的提问可能连人类也不清楚我是想要像python字符串里面进行[::-1]倒置,还是将单词里面一个个字母进行倒置,后面我又把需求讲清,只是模型还是倒在了someone这个词的逆置:

最后来点弱智吧题目试试:

“既然牙膏最后一点怎么都挤不出来,为什么不在生产的时候就少放一点”

这个问题还好,模型没有中招犯傻哈哈哈。来下一个问题:

“全家桶我一个人都吃不饱,我是什么”

重生之我是无底洞,按它的逻辑推断也不是不行。

最后我想说,这些测试就当作乐子看就行。模型的具体能力还是得看他在具体应用上的表现,而且deepseek都做出来国产o1了,其他的大厂还会远么?

况且当前发布的还是lite测试模型,我还是很期待R1完全体能够带来什么样的表现。