聊聊deepseek新发布的国产"o1"大模型: Deepseek-R1-lite

聊聊deepseek昨天新发布的R1 Lite，每天50次使用，国产“o1”了属于是，据他们官方介绍，目前还处于测试阶段，后续会把R1模型和技术报告开源，并且提供API服务。

（主要是他们家的价格是真香不是么）

而从他们家的帖子也可以看到，这次的R1在两个数据集测试上领先了o1-preview-level的分数，代码和数学能力都比较强。不过具体的模型细节还得等他们把技术报告开源才能知道。

下面是昨天对它的一些测试：

第一个问题是“strawberry里面有多少r”，没想到第一个问题就问倒它了，但是这个深度思考0s让我有点疑惑

于是我把问题重新问了一遍，与刚才不同的是，我把问号去掉了，结果模型居然能从推理思考里面给出正确答案了。

它的推理过程也很完善，基本是推理->验证->再验证->再验证->给出答案。

之后我又从 matheval 找了几道数学题给它测试，先从24高考数学题开始：

一开始模型已经推理出是A选项正确答案了，然后还疑惑为什么B不是正确选项，之后就开始了自我纠正重新推理计算，最后确认答案就是A选项。那再给它MMLU的数学题看看。

可惜的是这道题模型做错了，在推理过程中它虽然没有遗漏其他咽弓提供的作用，但是最后它只选择了第二个，正确选择应该是第二和第三（D选项）

然后我又测试了字符串逆置问题：

我让它将“there is someone there”这句话的字母倒转，这里它给出了错误的答案，不过我也反思了一下，我的提问可能连人类也不清楚我是想要像python字符串里面进行[::-1]倒置，还是将单词里面一个个字母进行倒置，后面我又把需求讲清，只是模型还是倒在了someone这个词的逆置：

最后来点弱智吧题目试试：

“既然牙膏最后一点怎么都挤不出来，为什么不在生产的时候就少放一点”

这个问题还好，模型没有中招犯傻哈哈哈。来下一个问题：

“全家桶我一个人都吃不饱，我是什么”

重生之我是无底洞，按它的逻辑推断也不是不行。

最后我想说，这些测试就当作乐子看就行。模型的具体能力还是得看他在具体应用上的表现，而且deepseek都做出来国产o1了，其他的大厂还会远么？

况且当前发布的还是lite测试模型，我还是很期待R1完全体能够带来什么样的表现。