本文详备先容了DeepSeek过头专揽场景情欲禁地百度影音,涵盖了大模子的发展历程、基应允趣和分类(通用与推理模子)。著述分析了DeepSeek的具体秉性、性能上风、低老本锻真金不怕火与调用特质,以过头技巧道路(如MoE、MLA架构),并与竞品进行了对比。此外,还探讨了DeepSeek在金融风控等领域的专揽出路。
一、大模子发展总结
1.1. 大模子发展历程
图片情欲禁地百度影音
*GPT-4o的o暗意omni,意为“全知万能的”;o1/o3的o暗意OpenAI.
从OpenAI的发展经过看大模子的发展趋势:
1.2. 大模子基应允趣
大模子是若何构建的?
图片
援用论文 Large Language Models: A Survey [1]
图片
中枢的三个才智: 预锻真金不怕火,有监督微斡旋东说念主类反馈强化学习。
图片
1.3. 推理模子与通用模子
大模子发展于今,不错分为: 通用大模子与推理大模子。
图片
念念维链(Chain of Thought, CoT)通过条款/辅导模子在输出最终谜底之前,显式输出中间渐渐的推理才智这一设施来增巨大模子的算数、知识和推理的性能。从该角度,不错将大模子的范式分为两类: 概率预测(快速响应模子)和链式响应(慢速念念考模子),前者符合快速反馈,处理即时任务,后者通过推相识决复杂问题。
图片
一个例子,问: 1+2+3+4+5+6+7+8+9+10=若干,胜利告诉我谜底
图片
图片
二、DeepSeek
2.1. DeepSeek是什么
图片
DeepSeek主流模子的竞品对标
2.2. DeepSeek不错作念什么
胜利面向用户或者支持树立者,提供智能对话、文本生成、语义相识、算计推理、代码生成补全等专揽场景,支持联网搜索与深度念念考,同期支持文本上传,大略扫描读取各样文献及图片的笔墨执行。
图片
2.3. DeepSeek的模子对比
2.3.1. DeepSeek模子发展史图片
武藤兰良友 彩云之南公众号,浙商证券征询所。[联系集会2]
咱们常说的DeepSeek的大模子,是指刻下主流的DeepSeek-V3和DeepSeek-R1。
2.3.2. V3与R1的对比与秉承总结: 不筹商调用老本,复杂推理任务(例如数学、代码等)或者但愿得到念念维链,优先DeepSeek-R1;执行创作、文本生成等优先DeepSeek-V3。
图片
图片
2.3.3. 竞品-OpenAI的大模子图片
*o3-mini的一个先容: [3], o1-mini的一个先容: [4], GPT-4o的一个先容: [5], GPT-4o-mini的一个先容: [6]
2.3.4. 竞品-通义千问的大模子图片
图片
援用: 通义千问官网[7]
2.4. DeepSeek为什么大火
图片
2.4.1. 性能优厚图片
图片
图片
*AIME 2024: 数学题,涵盖算术、代数、计数、几何、数论、概率等中学数学主题的概括评测,测试数学问题措置才智。
*MATH-500: 包含500个测试样本的MATH评测集,全面测验数学解题才智。
*GPQA: 征询生水平的巨匠推理,一个通过征询生级别问题评估高阶科学解题才智的评测集,旨在测验科学问题措置才智。
2.4.2. 锻真金不怕火低廉论断: DeepSeek-V3 较 OpenAI竞品,锻真金不怕火老本约为1/20~1/3
*注, H800为针对中国阛阓定制,性能和价钱略低于H100.
2.4.3. API调用低廉论断: DeepSeek-V3 API调用价钱约为OpenAI o3-mini的1/4,为GPT-4o的约1/10. 但要高于GPT-4o-mini, 性能强于GPT-4o-mini.
以下为刻下调用价钱,以token为单元,1个英笔墨符约0.3个token,1个中笔墨符约0.6个token,即1 token可对应1-2个中语汉字,或对应3-4个英笔墨符,或0.75个英文单词,截至到2025年2月8日
图片
*o3 mini念念维链: 2025年2月7日,openAI公开o3 mini念念维链,业界推测非原始念念维链,而是总结之后的念念维链输出。
*缓存掷中: 在大模子 API 的使用场景中,用户的输入有卓越比例是叠加的。例如说,用户的 prompt 时常有一些叠加援用的部分;再例如说,多轮对话中,每一轮齐要将前几轮的执行叠加输入。启用高下文硬盘缓存技巧,把预测改日会叠加使用的执行,缓存在散布式的硬盘阵列中。要是输入存在叠加,则叠加的部分只需要从缓存读取,无需算计。该技巧不仅镌汰工作的延伸,还大幅削减最终的使用老本。
*MMLU(大界限多任务言语相识)是一种新的基准测试,涵盖STEM、东说念主文、社会科学等57个学科,有用地预计了概括知识才智。
2.4.4. 其它成分2.5. DeepSeek为什么又好又省-技巧道路
2.5.1. 主要技巧道路图片
参考: DeepSeek-v3技巧文档 [8]
图片
2.5.2. Mixture of Experts (MoE) 夹杂巨匠模子MoE在NLP、CV、多模态和推选系统中有精深的专揽(时分线上头的开源,底下的闭源)。
图片
参考: A Survey on Mixture of Experts [9]
两种典型的MoE: Dense MoE VS. Sparse MoE
图片
图片
图片
时常会带来负载平衡问题,即巨匠使命量的不平衡散布,部分巨匠常常更新,其它巨匠很少更新,多数征询专注于措置负载平衡问题。
DeepSeek的MoE结构: DeepSeekMoE
DeepSeek-R1: 1个分享的巨匠+63个路由的巨匠,每个巨匠是圭臬FFN的1/4大小.
图片
2.5.3. Multi-Head Latent Attention (MLA)图片
2.5.4. R1的锻真金不怕火范式:冷脱手与多阶段RL图片
参考: 知乎@绝密裂缝 [10]
2.6. DeepSeek与竞品对比
2.6.1. 几个竞品的对比面容/模子DeepSeek-R1GPT-4o豆包模子定位专注高端推理和复杂逻辑问题通用大模子,旨在处理多任务、多模态中语环境,面向C端用户,轻量化、文娱化是否开源是否否,交易化居品擅长功能复杂推理,例如数学、代码通用言语生成、多模态相识拟东说念主化聊天、创意执行生成、图像生成定制化程度高;用户可修改模子行为并针对特定用例进行优化低;主要通过API调用于辅导工程进行微调低;提供API工作,天真性低硬件条款温情;部署对硬件条款相对适中不适用;仅通过OpenAI基础设施上的API提供手脚云霄居品,无需自建硬件,后端依赖云算计集群多模态支持暂无,可用Janus-Pro多模态大模子强多模态才智,支持文本、图像等输入一定的多模态支持用户群体树立者、企业用户、专科征询者群众阻留用户、企业客户和树立者,高端阛阓普通破钞者、执行创作家,字节生态2.6.2. DeepSeek的弱点2.6.3. DeepSeek的影响图片
鼓动了大模子开源进度,手脚鲶鱼,让群众大模子竞赛进一步提速。
2.7. DeepSeek使用冷漠
DeepSeek辅导词库[11]
2.7.1. DeepSeek使用的不同点图片
2.7.2. R1的正确掀开面容图片
关于推理大模子,存在诳骗手段失效和“启发式辅导”失效的问题:
参考: 知乎田威AI[12]
图片
本站仅提供存储工作,通盘执行均由用户发布,如发现存害或侵权执行,请点击举报。