神末shenmo
deepin
2025-02-08 13:58 Spark-App
你这不会是deepseek自己说的改的吧
Reply Like 2 View the author
你这不会是deepseek自己说的改的吧
你这不会是deepseek自己说的改的吧
一半一半,咱是小白,各种搜索,这几天看文章,搜索,Kimi,deepseek,碎片化凑的,里面带格式的都是问的deepseek。确实deepseek也给力,自己给自己扫扫盲.
Popular Ranking
ChangePopular Events
More
AI的基本认识、使用与深入
一、AI的一些简单基本认识
(一)入门级的名词释义
LLM: large language model 大语言模型
AI:Artificial Intelligence 人工智能
Token: 是模型用来表示自然语言文本的基本单位,也是我们的计费单元,可以直观的理解为“字”或“词”;通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token。一般情况模型中 token 和字数的换算比例大致如下:1 个英文字符 ≈ 0.3 个 token, 1 个中文字符 ≈ 0.6 个 token。但因为不同模型的分词不同,所以换算比例也存在差异,每一次实际处理 token 数量以模型返回为准。
AGI(Artificial General Intelligence,通用人工智能)是指具备与人类相当或超越人类的广泛认知能力的人工智能。与专注于特定任务的窄人工智能(如语音识别、图像分类)不同,AGI能够理解、学习和执行任何智力任务,具备跨领域的通用性和适应性。AGI是人工智能的终极目标之一。AGI的核心特征:
通用性:能够处理多种任务,而非局限于单一领域。
自主学习:无需大量人工干预,能够从经验中学习并改进。
推理与问题解决:具备逻辑推理、抽象思考和解决复杂问题的能力。
适应性:能够适应新环境和新任务,灵活应对未知情况。
Model Distillation: 蒸馏模型 是一种模型压缩技术,其核心思想是将一个大型、复杂的“教师”模型的知识迁移到一个更小、更简单的“学生”模型中。教师模型通常是在大型数据集上训练的,具有较高的准确率,但计算成本高昂且部署困难。学生模型则旨在在保持较高准确率的同时,降低计算成本和存储空间。
(二)AI大模型典型代表
1.chatGPT3.5&4.0:AI时代开启标志
美国openAI代表作,代码闭源,商用付费,成本高,美国限制中国使用,国内正常途径无法访问,美国护城河产品代表之一,NVIDIA 算力卡大户(CUDA是NVIDIA的护城河技术)。
**2.deepseek-R1:**打破美国AI垄断护城河的颠覆性产品或模式,直接挑战了NVIDIA在人工智能硬件市场的主导地位,极大的降低了普通人及中小企业使用AI的门槛,个人认为是AI普及的标志性开端。
目前唯一一个可以和chatGPT对打的国产大模型,性能对齐 OpenAI-o1正式版,降低了AI使用门槛(免费、开源、可下载、本地部署非满血版或蒸馏版、可提供API接入满血版),使无法使用chatGPT的或用不起chatGPT的有同等能力替代产品使用,打破美国AI垄断护城河的产品。
DeepSeek与其他开源大模型的主要差异在于其技术路径和市场定位。DeepSeek通过算法优化和工程创新,实现了低成本、高性能的模型训练。这种模式不仅降低了硬件需求,还为开发者提供了更灵活的使用方式。相比之下,其他开源大模型虽然也具有一定的开源性和灵活性,但大多依赖于传统的算力堆砌模式。
DeepSeek对英伟达股价造成冲击的根本原因在于其低成本、高性能的开源模型对传统算力需求模式的颠覆。DeepSeek通过技术创新和开源策略,成功地降低了大模型的训练成本,这使得市场对英伟达的未来需求产生了担忧。与其他开源大模型相比,DeepSeek的模式更具颠覆性,因为它直接挑战了英伟达在人工智能硬件市场的主导地位。例如,Meta的Llama系列模型虽然也采用了开源策略,但在训练过程中仍然需要大量的GPU资源。这种依赖于硬件的模式使得Meta的模型在成本控制上不如DeepSeek灵活。此外,Meta等公司的开源模型更多地是用于内部研究和开发,而不是直接面向市场。
开源:20250120,正式发布 DeepSeek-R1,并同步开源模型权重(遵循 MIT License)。DeepSeek满血版(671B)(核心竞争力产品);开源的DeepSeek-R1-Zero (660B) 、DeepSeek-R1 (660B) 比满血版(671B)少些参数,也已经很能打了。
蒸馏:Deepseek****蒸馏小模型超越 OpenAI o1-mini
deepseek允许用户通过蒸馏技术借助R1训练其他模型(降低了GPU硬件算力需求,训练成本大大降低,推理链)
api key 注册后有10元免费token,超出后: DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。)
deepseek开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,允许用户通过蒸馏技术借助R1训练其他模型(降低了GPU硬件算力需求,训练成本大大降低,推理链),通过 DeepSeek-R1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标 OpenAI o1-mini 的效果
(1). DeepSeek-R1-Dstil-Qwen-1.5B
(2). DeeSeek-R1-Distil-Qwen-7B
(3). DeepSeek-R1-Distil-Qwen-14B
(4). DeepSeek-R1-Distill-Qwen-32B
(5). DeepSeek-R1-Distill-Llama-8B
(6). DeepSeek-R1-Distil-Llma-70B
二、deepseek的使用
(一)在线使用:(免费)
1.PC web端直接在线问答(手机注册、微信注册) https://chat.deepseek.com/
2.手机下载APP,在线问答
(二)API调用:(小成本)
系统或应用调用 deepseek R1满血版能力:需注册 api key ,注册后有10元免费token,超出后: DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。参见 DeepSeek API 文档:https://api-docs.deepseek.com/zh-cn/
(三)本地部署或云端部署
受制于本地或云端硬件或云硬件算力卡能力,适合不方便内部数据上传的单位,本地自己训练的** (如何下载拉取、本地部署、训练,网上已有很多教程案例了)**
DeepSeek-R1-Dstil-Qwen-1.5B
DeeSeek-R1-Distil-Qwen-7B
DeepSeek-R1-Distil-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distil-Llma-70B
大概意思是,teacher model是DeepSeek-R1,通过蒸馏(粗略理解为归纳、压缩、填鸭式教育、知识转移等,或者你也可以理解为一个元婴期高手元神出窍夺舍了一个筑基期弟子的身体,这弟子的脑子及思想见识是元婴期高手的脑子及知识沉淀),教会student model(如 Qwen、Llama)DeepSeek-R1的思考方式处理问题(思考链),即:老师教会了学生如何思考解决问题,把知识转移给学生,解决问题的人是学生,只不过这个学生是用老师的思维方式和转移过来的知识,同时参数为多少B(能力)。
3.其他我用过的其他的国内好用还行的AI大模型
通用:kimi 、豆包
文生图:即梦AI
(四)deepseek(或者说AI)能干什么,普通人怎么用
DeepSeek(或通用AI)是一个多功能的智能助手,普通人可以用它来简化生活、提升效率、获取知识、解决问题。以下是更贴近日常生活的功能介绍和使用指南,结合具体案例说明:
### 一、AI能帮你做什么?
1. 代替“搜索引擎”快速获取答案
场景:无需翻网页筛选信息,直接问AI。
例子:
2. 充当“私人老师”辅助学习
场景:学生、职场人自学新技能或知识。
例子:
3. 变身“效率工具”管理生活
场景:规划日程、整理信息、生成清单。
例子:
4. 作为“创作助手”解决写作难题
场景:写文案、邮件、报告,甚至小说灵感。
例子:
5. 成为“生活顾问”提供即时建议
场景:健康、理财、情感等日常问题。
例子:
### 二、普通人如何高效使用AI?
第一步:明确需求
第二步:补充背景
第三步:迭代优化
如果AI的回答不理想,追加指令:
第四步:结合工具
进阶用法:
### 三、注意事项
### 四、试试这些实用指令
**注 :**由于deepseek打了破美国AI的垄断,与其他开源大模型相比更具颠覆性,直接挑战了英伟达在人工智能硬件市场的主导地位,从春节期间一直在被不断DDos 攻击,在点击使用深度思考(R1)时,经常性的出现服务器繁忙。
三、以开源的deepseek为学习路径,深入学习AI(以下是deepseek给的学习路径)
好的!你想学习关于 DeepSeek 大模型 的内容,这是一个非常前沿且有趣的方向。大模型(如 GPT、BERT 等)是当前人工智能领域的核心研究方向之一,DeepSeek 的大模型可能涉及自然语言处理(NLP)、深度学习、大规模训练等技术。
以下是一个学习路径,帮助你逐步掌握 DeepSeek 大模型的相关知识:
1. 基础知识准备
编程基础:
数学基础:
机器学习基础:
2. 深度学习基础
神经网络基础:
深度学习框架:
经典模型:
3. 自然语言处理(NLP)基础
文本处理:
词嵌入(Word Embedding):
经典 NLP 模型:
4. 大模型核心技术
Transformer 架构:
预训练语言模型:
微调(Fine-tuning):
5. DeepSeek 大模型的实践
了解 DeepSeek 的技术特点:
动手实践:
6. 进阶学习
模型优化:
多模态学习:
伦理与安全:
7. 推荐资源
书籍:
在线课程:
工具与框架:
8. 实践项目
从简单的任务开始,比如:
逐步挑战更复杂的任务,比如:
在学习,做个Mark,欢迎一起讨论。