6850亿参数混合专家(MoE)架构开源大模型!Deepseek V3全方位客观评测文档处理、逻辑推理、算法编程等多维度的真实能力水平!是卓越还是拉胯?真能超越Claude还是言过其实?

Описание к видео 6850亿参数混合专家(MoE)架构开源大模型!Deepseek V3全方位客观评测文档处理、逻辑推理、算法编程等多维度的真实能力水平!是卓越还是拉胯?真能超越Claude还是言过其实?

🔥🔥🔥视频简介:
🚀当Deepseek v3遇上贪吃蛇:一个简单游戏实现背后,揭示最新开源大模型在复杂编程场景下的短板与不足
🚀本期视频我们详细测试了Deepseek最新发布的开源大模型Deepseek V3的综合能力。这款模型采用混合专家架构,总参数为685B,包括了256个专家模型,训练数据截止日期为2024年7月。
🚀我们从版本信息、知识库截止日期、PDF文件处理、提示词遵循、逻辑推理、编程和算法等多个方面对Deepseek V3进行了测试。测试发现:
✅对基于思维链的提示词遵循能力很强
✅在一些逻辑推理题上表现一般,有时会给出错误或不完整的答案
✅质数算法题中,给出的代码没有经过优化,执行效率很低
✅在其他一些算法题的表现参差不齐,有的可以给出正确答案,有的不行
✅在实现一个稍微复杂的贪吃蛇游戏时,经过多轮修改代码依然存在逻辑问题无法正常运行
✅相比之下,Claude模型可以一次性给出逻辑正确、功能完备的贪吃蛇游戏代码。

👉👉👉视频中所用到的指令 https://blog.stoeng.site/20241225.html
👉👉👉我的开源项目 https://github.com/win4r/AISuperDomain
👉👉👉请我喝咖啡 https://ko-fi.com/aila

🔥🔥🔥YouTube时间戳:
0:00 介绍 - Deepseek V3模型发布
1:00 测试知识库截止日期
1:21 测试PDF文件处理能力
2:18 测试大型PDF文件(605页)处理
2:54 测试提示词遵循能力
3:39 逻辑推理测试
5:19 编程能力测试 - 质数问题
6:13 其他算法题测试
7:36 复杂编程案例 - 贪吃蛇游戏实现
10:10 与Claude对比贪吃蛇实现
10:56 总结测试结果
11:48 结束语

#deepseek #claude #claude3 #llm #moe #ai #agi #aigc #aicoding #aiprogramming #python

Комментарии

Информация по комментариям в разработке