最近deepseek-r1异常火爆,各大公众号纷纷推出deepseek相关文章,内容涵盖从原理介绍到部署教程,从模型评测到实践应用,分析文章层出不穷。deepseek甚至破圈进入其他领域,我在短视频中就看到外交部部长王毅提到了deepseek。从商业产品的视角来看,各大云厂商竞相提供完整版API,各大AI应用服务商也在积极布局,争相推出基于deepseek-r1的产品和服务,就连浓眉大眼的文心一言也接入了deepseek-r1。这种火爆程度丝毫不亚于ChatGPT刚刚诞生之时。
这些现象不禁让人产生疑问:deepseek-r1是否代表着人工智能领域的一次革命性突破?它是否真的是一个全新的物种,具备超越以往AI模型的能力?它能否做到GPT做不到的事情?是否意味着我们不再需要精心编写提示词?然而,在这耀眼的光环背后,答案其实很简单:这些都不是,说白了,从应用的视角来看,它过火了,它只是一个处于第一梯队的大语言模型(还是不是第一),接下来让我们通过这篇文章一起给他去去魅。 希望大家通过阅读这篇文章后,能够理性看待deepseek-r1,充分发挥它的真正价值。
在深入了解这些现象之前,我们需要先厘清一些对Deepseek-r1的常见误解。这些误区不仅影响了人们对这一模型的认知,也可能导致在实际应用中产生不切实际的期待。让我们通过分析这些误区,来更准确地理解Deepseek-r1的真实能力和局限性。
五个常见误区
误区1:deepseek-r1远超其他模型
首先来看第一个误区,虽然deepseek-r1在多个评测榜单上表现出色,但它并非远超其他模型,甚至在有些领域还弱于其他模型。不同的模型有不同的优势和劣势,适用于不同的应用场景。例如,claude-sonnet-3.5模型,目前依旧是编码最强的非推理模型,其编码能力也在deepseek-r1之上。而deepseek-r1的优势主要体现在性价比和中文理解上(下文详解)。
我们先来看两个榜单,首先就是livebench上的评测结果,在榜单中可以明显看出deepseek-r1在代码、数学、数据分析上有明显领先。
在lmarena的leaderboard上,deepseek-r1明显是第一梯度,但还不是最强。而且和后面的一些模型模型在比分上也没有明显的差距。
注:LiveBench通过标准测试集进行客观评测,反映出模型的客观能力水平。而lmarena则基于全球用户的实际对话进行评测,反映出的是用户对模型的主观评价。客观评价和主观评价略有差异,属于正常现象。
误区2:deepseek-r1是一个全新物种
在学习大模型使用时,我们都会接触到一个重要概念:思维链(COT),即让模型通过分步骤的方式来思考问题。以数学问题为例,模型会先理解问题内容,然后列出解题步骤,最后逐步得出答案。在使用传统大语言模型(如gpt-4o)时,用户需要主动指示模型使用思维链,有时甚至需要详细说明思考过程。而deepseek-r1的独特之处在于,它在训练阶段就被优化为自主使用思维链来解决问题,即便用户不特别要求,它也会自发采用这种方法。这种内置的思维链能力确实提升了它处理复杂问题的表现,但本质上这仍是对现有技术的优化,而非革命性突破。
这种优化主要体现在训练方式和架构设计上。模型在训练阶段接受了大量思维链示例,从而培养出自然运用逐步推理的能力。虽然这提升了模型的推理能力和实用性,但本质上仍是在现有大语言模型框架内的改进。简而言之,deepseek-r1只是一个特别擅长使用思维链的大语言模型。
误区3:不再需要提示词
我也看到一些博主发表过类似"不需要提示词"的文章。然而实际上,deepseek-r1的本质仍是基于Transformer架构的大语言模型,其核心功能是计算下一个token的概率分布。因此,提示词依然会显著影响其内容生成的质量,所以之前大家了解到的各种提示词技巧依旧适用。好的提示词能够引导模型产出更准确、更符合预期的内容。尽管deepseek-r1在部分场景下对提示词的要求可能相对宽松(具体案例将在下文优点部分详述),但这并不代表我们可以完全忽视提示词的设计。
这里再次推荐下我之前写的一篇文章《从大模型的原理到提示词优化》,可以从原理的视角了解如何写好提示词。
误区4:各种蒸馏版本和满血版的关系
由于DeepSeek突然爆火而遭受攻击,官网持续无法访问,这种情况反而促进了本地化部署方案的流行。目前最常用的本地部署方案是借助Ollama,但由于过于火爆,Ollama的服务器也一度因流量过载而陷入瘫痪。
Ollama官网上提供了从1.5b到671b多个版本的模型,其中只有671b被大家称为满血版,其他都是残血版,其效果大打折扣。 大家都以为残血版是deepseek-r1蒸馏出来的,实际上这些版本都是使用deepseek-r1的数据,做过微调的其他开源模型。 比如大家最常部署的deepseek-r1:7b(大部分人能部署的最大版本),其实就是qwen2.5,同样是qwen2.5的还有14b和32b,像8b和70b基座模型是llama3模型。
没想到吧,你以为它们都是deepseek-r1的亲儿子,但其实都是收养过来的。 总结起来其实都是已有开源模型,借助deepseek-r1的数据,通过微调使其学会深度思考,从而提升其性能,但模型的性能终究受限于基础模型的原生性能——比如一个7B参数的模型,再怎么优化也很难强于更大参数规模的模型。
误区5:deepseek-r1能完全取代人类工作
这个误区本质上是由deepseek-r1的过度过火导致的。从前面的分析可以看出,deepseek-r1相比现有的头部模型,能力并没有质的提升,但大家对它的反应却异常强烈。
回顾ChatGPT刚诞生时,也曾引发类似的反应(认为AI将完全取代人类工作),但两年多过去后,大家的态度已经趋于理性。这次的情况与ChatGPT初期很相似,只是影响范围更广——ChatGPT最初主要影响技术圈,而deepseek-r1确实实现了"破圈"。在我春节回家时,甚至连从事土木、机械等专业的亲友都在谈论deepseek。简而言之,现在关于人类工作被完全取代的说法,其实就是2022年ChatGPT引发的"AI取代论"在非技术圈的重演。
deepseek-r1的优缺点
通过前面的分析,我们已经厘清了一些关于deepseek-r1的常见误区。接下来,让我们深入探讨它的实际优缺点,通过具体的数据和案例来展示这个模型在实际应用中的表现。这样的分析将帮助我们更好地理解它的实际应用价值和局限性。
优点
价格便宜且极具性价比
这个我们直接看下图表就知道了,下图是各家代表性模型性能和价格的分布图,图中横轴代表每百万token的价格(美元),纵轴表示智能程度。 可以看到,deepseek-r1明显位于左上角区域,其智能程度超过o1-mini,但价格却不到后者的四分之一。值得注意的是,其实o3-mini同样具有很高的性价比。
提示词要求弱化
在实际使用过程中,我发现deepseek-r1对于提示词的要求有明显的降低,比如在写作任务中,只需要简单地描述需求,它就能理解任务意图并生成高质量的内容。例如,当要求写一篇产品介绍文章时,不需要详细说明文章结构、语气和风格,只需给出产品名称和核心功能,deepseek-r1就能生成符合预期的内容。这种降低提示词要求的特性大大提升了使用效率,特别适合AI新手。 长时间使用后,你就会发现很多时候,它推理过程中的内容,其实就是你原本应该给大语言模型的提示词。
让我们通过一个简单的案例来对比 deepseek-r1 和 gpt-4o 的表现差异——让两个模型分别生成一段自我介绍。
我只使用了一个简单的提示"生成一段自我介绍",没有提供任何额外信息或要求,但能明显看出 deepseek-r1 生成的内容更加正式、实用。这得益于它的反思机制——在反思过程中,它能准确推测用户意图并给出相应方案。相比之下,其他非推理模型往往需要更详细的提示才能生成符合要求的内容。
在编码、数学、数据分析上有明显优势
这里很难通过具体的案例来给大家展现了,我们还是直接看下livebench.ai的客观评测结果:
deepseek-r1在总榜单上位列第三(仅次于o3-mini-high和o1),同时在数学、数据分析和编码能力的分榜上分别排名第一、第二和第四,显然属于世界顶尖水平。
文学素养很高
我之前使用相同的提示词对比了deepseek-r1、o3-mini-medium(OpenAI最强模型)和gemini-2.0-flash-thinking(谷歌最强模型)的文学素养。相较之下,deepseek-r1生成的结果直接惊艳到我了,下面让我们直接看看对比结果:
尽管我个人文学素养有限,特别是对屈原作品也并不熟知,但从 deepseek-r1 能够巧妙地融入屈原的诗句这一点来看,它在文学创作方面确实展现出了独特的优势。
这里再贴一个,大家自行感受下孰优孰劣。
缺点
响应速度慢
这种速度问题体现在两个方面。首先,推理过程耗时较长。从上文的几个示例可以看出,即使是生成简短的内容,deepseek-r1也需要额外花费十几秒来进行推理,有些复杂的推理过程,耗费时间可能超过1分钟。
其次,与其他大语言模型相比,deepseek-r1的内容生成速度明显较慢。让我们来看一下各大头部模型token生成速度的分布图:
依旧是各家的代表模型,上图横轴代表生成速度,纵轴代表智能程度,可以看出在头部模型中,deepseek家族的两个模型生成速度基本上处于垫底的水平,每秒仅可生成30tokens左右,而同级别的o1-mini生成速度是其5倍。
这种速度问题限制了deepseek-r1的应用场景,特别是在需要快速响应的场景中,它就不可能是最好的选择了。 额外说一点,其实从性能、价格、速度这三个维度综合来看,我觉得gemini-2.0-flash其实是最好的选择,重点是个人开发者还可以白嫖。
不支持多模态
作为一个纯语言模型,deepseek-r1目前仍然缺乏处理图像内容的能力,而其他家的模型早已都支持了多模态。虽然deepseek官方已开源了Janus,但尚未应用在其AI产品上。不过我预计今年一定会实现,届时当deepseek-r1及后续更强大的模型接入多模态功能后,其应用场景将大幅拓展。
最后让我们总结一下deepseek-r1的主要优缺点:
优点 | 缺点 |
---|---|
极高的性价比,价格远低于同等性能的其他模型 | 响应速度较慢,包括推理过程和内容生成速度 |
对提示词要求低,易于使用,特别适合AI新手 | 缺乏多模态功能,目前仅支持文本处理 |
在编码、数学和数据分析领域表现出色 | |
具有较高的文学素养,能生成优质的文学内容 |
总的来说,deepseek-r1的主要局限在于响应速度慢以及缺乏多模态功能。不过对大多数用户而言,多模态功能也不是刚需,那就只有速度慢一点了,期待官方之后能提升下生成速度。
结语
春节期间最热门的两个话题分别是 deepseek 和《哪吒2》。它们的爆火不仅源于卓越的品质,更因为它们都展现了中国在各自领域从追赶者到引领者的转变,这让国人倍感振奋。然而,在这份振奋之余,我们仍需保持理性,避免盲目追捧或过度解读。
实际上,deepseek-r1的爆火更像是技术演进与市场情绪共振的产物——它既非横空出世,也非颠覆性创新,而是在大模型竞赛中的一次精准超车。其核心竞争力体现在工程化落地的精准定位上:通过优化思维链机制降低使用门槛,借助性价比优势进入企业服务市场,并凭借中文领域的深耕建立差异化优势。这些策略让它在头部模型的激烈竞争中开辟了突破口,但本质上仍是现有技术框架下的效率革新。
对于开发者而言,与其追逐短期热度,不如冷静评估三个关键维度:当业务需要低成本的中文内容生成、弱提示依赖的交互设计或高性价比的代码辅助时,deepseek-r1是理想选择;但在实时交互场景、多模态处理需求或超高精度推理任务方面,当前版本仍有明显局限。这种工具属性的区分,正印证了人工智能发展的基本规律——没有全能冠军,只有场景专家。
这场热潮背后反映出更深层的趋势:随着技术迭代进入平台期,市场对垂直领域优化和成本控制能力的重视已超越了对参数规模的盲目追求。deepseek-r1的成功表明,当基础能力达到一定水平后,工程实现的艺术可能比学术指标的突破更具商业价值。但历史经验提醒我们,任何技术热潮都将经历"期望膨胀-泡沫破灭-理性爬升"的周期,保持清醒的产品思维,才是穿越技术炒作周期的关键。
参考资料
1.Lmarena leaderboard
2.Livebench
3.极客时间《DeepSeek-R1 前沿入门课》
4.AI models analysis AI Model & API Providers Analysis | Artificial Analysis