我对deepseek的学习认知- Community

[deepin exploration] 我对deepseek的学习认知

Technology Exchange 800 views · 2 replies ·

zeyark

deepin

2025-02-08 12:25

Author

AI的基本认识、使用与深入

一、AI的一些简单基本认识

（一）入门级的名词释义

LLM: large language model 大语言模型
AI：Artificial Intelligence 人工智能
Token：是模型用来表示自然语言文本的基本单位，也是我们的计费单元，可以直观的理解为“字”或“词”；通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token。一般情况模型中 token 和字数的换算比例大致如下：1 个英文字符 ≈ 0.3 个 token， 1 个中文字符 ≈ 0.6 个 token。但因为不同模型的分词不同，所以换算比例也存在差异，每一次实际处理 token 数量以模型返回为准。
AGI（Artificial General Intelligence，通用人工智能）是指具备与人类相当或超越人类的广泛认知能力的人工智能。与专注于特定任务的窄人工智能（如语音识别、图像分类）不同，AGI能够理解、学习和执行任何智力任务，具备跨领域的通用性和适应性。AGI是人工智能的终极目标之一。AGI的核心特征：

通用性：能够处理多种任务，而非局限于单一领域。

自主学习：无需大量人工干预，能够从经验中学习并改进。

推理与问题解决：具备逻辑推理、抽象思考和解决复杂问题的能力。

适应性：能够适应新环境和新任务，灵活应对未知情况。
Model Distillation：蒸馏模型是一种模型压缩技术，其核心思想是将一个大型、复杂的“教师”模型的知识迁移到一个更小、更简单的“学生”模型中。教师模型通常是在大型数据集上训练的，具有较高的准确率，但计算成本高昂且部署困难。学生模型则旨在在保持较高准确率的同时，降低计算成本和存储空间。

（二）AI大模型典型代表

1.chatGPT3.5&4.0：AI时代开启标志

美国openAI代表作，代码闭源，商用付费，成本高，美国限制中国使用，国内正常途径无法访问，美国护城河产品代表之一，NVIDIA 算力卡大户（CUDA是NVIDIA的护城河技术）。

**2.deepseek-R1：**打破美国AI垄断护城河的颠覆性产品或模式，直接挑战了NVIDIA在人工智能硬件市场的主导地位,极大的降低了普通人及中小企业使用AI的门槛，个人认为是AI普及的标志性开端。

目前唯一一个可以和chatGPT对打的国产大模型，性能对齐 OpenAI-o1正式版，降低了AI使用门槛（免费、开源、可下载、本地部署非满血版或蒸馏版、可提供API接入满血版），使无法使用chatGPT的或用不起chatGPT的有同等能力替代产品使用，打破美国AI垄断护城河的产品。

DeepSeek与其他开源大模型的主要差异在于其技术路径和市场定位。DeepSeek通过算法优化和工程创新，实现了低成本、高性能的模型训练。这种模式不仅降低了硬件需求，还为开发者提供了更灵活的使用方式。相比之下，其他开源大模型虽然也具有一定的开源性和灵活性，但大多依赖于传统的算力堆砌模式。

DeepSeek对英伟达股价造成冲击的根本原因在于其低成本、高性能的开源模型对传统算力需求模式的颠覆。DeepSeek通过技术创新和开源策略，成功地降低了大模型的训练成本，这使得市场对英伟达的未来需求产生了担忧。与其他开源大模型相比，DeepSeek的模式更具颠覆性，因为它直接挑战了英伟达在人工智能硬件市场的主导地位。例如，Meta的Llama系列模型虽然也采用了开源策略，但在训练过程中仍然需要大量的GPU资源。这种依赖于硬件的模式使得Meta的模型在成本控制上不如DeepSeek灵活。此外，Meta等公司的开源模型更多地是用于内部研究和开发，而不是直接面向市场。

Deepseek颠覆美国AI垄断地位****开启的标志：

开源：20250120,正式发布 DeepSeek-R1，并同步开源模型权重(遵循 MIT License)。DeepSeek满血版（671B）（核心竞争力产品）；开源的DeepSeek-R1-Zero （660B) 、DeepSeek-R1 (660B) 比满血版（671B）少些参数，也已经很能打了。

蒸馏：Deepseek****蒸馏小模型超越 OpenAI o1-mini

deepseek允许用户通过蒸馏技术借助R1训练其他模型（降低了GPU硬件算力需求，训练成本大大降低，推理链)

api key 注册后有10元免费token，超出后： DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元（缓存命中）/ 4 元（缓存未命中），每百万输出 tokens 16 元。）

deepseek开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,允许用户通过蒸馏技术借助R1训练其他模型（降低了GPU硬件算力需求，训练成本大大降低，推理链),通过 DeepSeek-R1的输出，蒸馏了6个小模型开源给社区，其中32B和70B模型在多项能力上实现了对标 OpenAI o1-mini 的效果

(1). DeepSeek-R1-Dstil-Qwen-1.5B

(2). DeeSeek-R1-Distil-Qwen-7B

(3). DeepSeek-R1-Distil-Qwen-14B

(4). DeepSeek-R1-Distill-Qwen-32B

(5). DeepSeek-R1-Distill-Llama-8B

(6). DeepSeek-R1-Distil-Llma-70B

二、deepseek的使用

（一）在线使用：（免费）

1.PC web端直接在线问答（手机注册、微信注册） https://chat.deepseek.com/

2.手机下载APP，在线问答

（二）API调用：（小成本）

系统或应用调用 deepseek R1满血版能力：需注册 api key ，注册后有10元免费token，超出后： DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元（缓存命中）/ 4 元（缓存未命中），每百万输出 tokens 16 元。参见 DeepSeek API 文档：https://api-docs.deepseek.com/zh-cn/

（三）本地部署或云端部署

受制于本地或云端硬件或云硬件算力卡能力，适合不方便内部数据上传的单位，本地自己训练的** （如何下载拉取、本地部署、训练，网上已有很多教程案例了）**

最高能本地部署的是开源满血版（671B）
其次是6个蒸馏版：

DeepSeek-R1-Dstil-Qwen-1.5B

DeeSeek-R1-Distil-Qwen-7B

DeepSeek-R1-Distil-Qwen-14B

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Llama-8B

DeepSeek-R1-Distil-Llma-70B

大概意思是，teacher model是DeepSeek-R1，通过蒸馏（粗略理解为归纳、压缩、填鸭式教育、知识转移等,或者你也可以理解为一个元婴期高手元神出窍夺舍了一个筑基期弟子的身体，这弟子的脑子及思想见识是元婴期高手的脑子及知识沉淀），教会student model(如 Qwen、Llama)DeepSeek-R1的思考方式处理问题（思考链），即：老师教会了学生如何思考解决问题，把知识转移给学生，解决问题的人是学生，只不过这个学生是用老师的思维方式和转移过来的知识，同时参数为多少B（能力）。

3.其他我用过的其他的国内好用还行的AI大模型

通用：kimi 、豆包

文生图：即梦AI

（四）deepseek(或者说AI)能干什么，普通人怎么用

DeepSeek（或通用AI）是一个多功能的智能助手，普通人可以用它来简化生活、提升效率、获取知识、解决问题。以下是更贴近日常生活的功能介绍和使用指南，结合具体案例说明：

### 一、AI能帮你做什么？

1. 代替“搜索引擎”快速获取答案

场景：无需翻网页筛选信息，直接问AI。
例子：
- “端午节为什么吃粽子？”
- “2024年巴黎奥运会开幕式时间是哪天？”
- “如何快速去除衣服上的油渍？”

2. 充当“私人老师”辅助学习

场景：学生、职场人自学新技能或知识。
例子：
- 学生：“解释牛顿三大定律，用生活中的例子说明。”
- 备考：“帮我总结英语四级作文模板。”
- 技能学习：“Python入门需要学哪些内容？给一个学习路线。”

3. 变身“效率工具”管理生活

场景：规划日程、整理信息、生成清单。
例子：
- 计划：“制定一份‘一周减脂食谱’，包含早中晚餐。”
- 待办：“把‘明天开会要准备的5个事项’整理成清单。”
- 决策：“预算5000元，上海周边3日游去哪里合适？”

4. 作为“创作助手”解决写作难题

场景：写文案、邮件、报告，甚至小说灵感。
例子：
- 职场：“写一封生病请假的邮件，语气正式。”
- 自媒体：“帮我想10个关于‘夏日护肤’的短视频选题。”
- 创意：“写一个关于‘AI穿越到古代’的故事开头。”

5. 成为“生活顾问”提供即时建议

场景：健康、理财、情感等日常问题。
例子：
- 健康：“缓解颈椎痛的5个居家动作。”
- 理财：“月薪8000如何合理分配储蓄和消费？”
- 情感：“和室友闹矛盾了，该怎么沟通？”

### 二、普通人如何高效使用AI？

第一步：明确需求

❌ 模糊提问：“帮我写点东西。”
✅ 具体提问：“写一篇关于‘环保’的演讲稿，听众是中学生，500字左右。”

第二步：补充背景

❌ 简单提问：“推荐一本书。”
✅ 详细说明：“我想提升沟通能力，适合职场新人的书籍，推荐3本并说明理由。”

第三步：迭代优化

如果AI的回答不理想，追加指令：
- “换个更幽默的风格。”
- “缩短到200字以内。”
- “用步骤1、2、3的形式重新组织。”

第四步：结合工具

进阶用法：
- 让AI生成Excel公式：“用公式统计A列大于100的数据数量。”
- 辅助编程：“写一个Python脚本，批量重命名文件夹里的图片。”
- 分析数据：“根据这份销售数据表格，总结3个关键结论。”

### 三、注意事项

隐私保护：避免透露个人敏感信息（如身份证号、银行卡）。
交叉验证：重要信息（如医疗、法律建议）需通过权威渠道确认。
明确边界：AI可能出错，复杂问题需结合人类判断。

### 四、试试这些实用指令

“用小学生能听懂的话解释ChatGPT的原理。”
“把‘项目管理五大流程’整理成思维导图文本格式。”
“模拟面试官提问：10个常见的产品经理面试问题。”
“写一首关于夏天的诗，每句7个字，押韵。”

**注：**由于deepseek打了破美国AI的垄断，与其他开源大模型相比更具颠覆性，直接挑战了英伟达在人工智能硬件市场的主导地位，从春节期间一直在被不断DDos 攻击，在点击使用深度思考（R1）时，经常性的出现服务器繁忙。

三、以开源的deepseek为学习路径，深入学习AI（以下是deepseek给的学习路径）

好的！你想学习关于 DeepSeek 大模型 的内容，这是一个非常前沿且有趣的方向。大模型（如 GPT、BERT 等）是当前人工智能领域的核心研究方向之一，DeepSeek 的大模型可能涉及自然语言处理（NLP）、深度学习、大规模训练等技术。

以下是一个学习路径，帮助你逐步掌握 DeepSeek 大模型的相关知识：

1. 基础知识准备

编程基础：
- 掌握 Python，因为大多数深度学习框架（如 PyTorch、TensorFlow）都使用 Python。
- 学习基本的算法和数据结构。
数学基础：
- 线性代数（矩阵运算、向量空间等）。
- 概率论与统计学（概率分布、贝叶斯定理等）。
- 微积分（梯度、导数等）。
机器学习基础：
- 了解监督学习、无监督学习、强化学习等基本概念。
- 学习常见的机器学习算法（如线性回归、决策树、SVM 等）。

2. 深度学习基础

神经网络基础：
- 了解神经元、激活函数（如 ReLU、Sigmoid）、前向传播和反向传播。
深度学习框架：
- 学习 PyTorch 或 TensorFlow，掌握如何构建和训练神经网络。
经典模型：
- 学习卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）等。

3. 自然语言处理（NLP）基础

文本处理：
- 学习分词、词性标注、句法分析等基础技术。
词嵌入（Word Embedding）：
- 了解 Word2Vec、GloVe、FastText 等词向量模型。
经典 NLP 模型：
- 学习 RNN、LSTM、GRU 在 NLP 中的应用。
- 了解 Seq2Seq 模型和注意力机制（Attention Mechanism）。

4. 大模型核心技术

Transformer 架构：
- 学习 Transformer 的核心组件（如自注意力机制、多头注意力、位置编码）。
- 阅读经典论文：Attention is All You Need。
预训练语言模型：
- 了解 BERT、GPT 等模型的原理和区别。
- 学习如何在大规模语料库上预训练模型。
微调（Fine-tuning）：
- 掌握如何将预训练模型应用到具体任务（如文本分类、问答系统等）。

5. DeepSeek 大模型的实践

了解 DeepSeek 的技术特点：
- 查阅 DeepSeek 的官方文档、技术博客或论文，了解其大模型的设计思路和应用场景。
动手实践：
- 使用 DeepSeek 提供的 API 或开源代码，尝试构建自己的 NLP 应用。
- 参与 Kaggle 等平台的 NLP 竞赛，积累实战经验。