AI 核心概念解析:LLM、Token、Embedding、RAG 与 Agent
前言
最近两年 AI 相关的名词爆发式增长——LLM、RAG、Agent、Embedding、Token、Prompt Engineering……对刚接触这个领域的人来说,信息量大得有些劝退。
这篇文章的目的是用最直白的话,把这些核心概念串一遍。不需要数学基础,不需要编程经验。
一、LLM(大语言模型)
一句话:LLM 就是一个”超级接话机器人”,你说上半句,它接下半句。
从技术角度看,LLM(Large Language Model)是一个在海量文本上训练出来的神经网络,核心能力是预测下一个词(token)应该是什么。
当你在 ChatGPT 里输入”中国的首都是”,模型根据训练时见过的文本,预测下一个词大概率是”北京”。
主流 LLM 盘点(2024-2025)
| 模型 | 开发方 | 特点 |
|---|---|---|
| GPT-4o / GPT-4.1 | OpenAI | 综合能力最强,多模态(文字+图片+语音) |
| Claude 4 | Anthropic | 长文本处理强,编程能力突出,安全性好 |
| Gemini 2.5 | 多模态原生,搜索整合好 | |
| DeepSeek-V3 / R1 | 深度求索 | 国产开源,性价比极高,R1 推理能力强 |
| Qwen 2.5 / 3 | 阿里通义 | 开源生态完整,中文能力强 |
| Llama 4 | Meta | 开源标杆,社区生态最成熟 |
| Kimi | 月之暗面 | 超长上下文(200万字),中文场景优化 |
| 豆包 / 文心 / 混元 | 字节/百度/腾讯 | 国内 toC 产品,免费额度足 |
怎么选
- 日常使用:GPT-4o 或 Claude,哪个顺手用哪个
- 中文写作/编程:DeepSeek 性价比最高
- 企业私有化部署:Qwen 或 Llama 开源系列
- 超长文档处理:Kimi 或 Claude
二、Token(词元)
一句话:Token 是模型”阅读”文本的最小单位,也是计费的基本单位。
你输入一句话,模型会把它切分成 token。1 个 token 约等于 1.5 个中文字或 0.75 个英文单词。
1 | "今天天气真好" → ["今天", "天气", "真", "好"] → 约 4-6 个 token |
为什么 token 重要:
- 上下文窗口:每个模型一次最多处理 N 个 token,比如 GPT-4o 是 128K,Claude 是 200K。这意味着你可以一次扔进去一本小说的长度
- 计费:API 按 token 收费,输入和输出分别计费
- 性能:token 越多,模型推理越慢
各模型上下文窗口对比:
| 模型 | 上下文窗口 | 约等于 |
|---|---|---|
| GPT-4o | 128K | ~20 万字 |
| Claude 4 | 200K | ~30 万字 |
| Gemini 2.5 | 1M | ~150 万字 |
| DeepSeek-V3 | 128K | ~20 万字 |
| Kimi | 2M | ~300 万字 |
三、Prompt(提示词)
一句话:Prompt 就是你跟大模型说的话,好的 prompt 能让模型输出质量翻倍。
1 | # 普通 prompt |
写 prompt 的基本原则:
- 给角色:告诉模型它是谁——“你是一个资深后端工程师”
- 给约束:明确格式、长度、风格——“用 Markdown 格式,不超过 500 字”
- 给示例:Few-shot——给 1-3 个输入输出示例
- 分步骤:复杂任务拆成多步——Chain of Thought(”让我们一步步思考”)
四、Embedding(向量嵌入)
一句话:把文字变成一串数字,让计算机能计算”这段文字和那段文字有多相关”。
1 | "猫" → [0.13, -0.45, 0.78, ..., 0.32] (比如 1536 个数字) |
通俗理解:Embedding 就是给每个文本拍一张”数字照片”。语义越相近的文本,它们的”数字照片”(向量)在数学空间中距离越近。
Embedding 的典型用途:RAG 中的知识检索——用户问了一个问题,系统把问题转成向量,然后在知识库中找最接近的几个文档片段。
常用 Embedding 模型:
| 模型 | 维度 | 中文效果 |
|---|---|---|
| OpenAI text-embedding-3 | 256-3072 | 好 |
| BGE-M3(智源) | 1024 | 很好,开源 |
| GTE-Qwen2(阿里) | 1536-4096 | 很好,开源 |
| Jina Embeddings v3 | 1024 | 好,多语言 |
五、RAG(检索增强生成)
一句话:给大模型外挂一个”知识库”,让它能回答训练数据中没有的内容。
1 | 没有 RAG: |
RAG 工作流程:
1 | 文档准备 → 文本切片 → Embedding 向量化 → 存入向量数据库 |
什么时候用 RAG,什么时候用微调:
| RAG | 微调(Fine-tuning) | |
|---|---|---|
| 场景 | 让模型知道它不知道的事实 | 让模型学会新的行为模式 |
| 成本 | 低,只需向量数据库 | 高,需要 GPU 训练 |
| 更新 | 实时,更新文档即可 | 需要重新训练 |
| 举例 | 客服知识库、产品手册问答 | 特定风格的写作、特定领域的推理 |
六、Agent(智能体)
一句话:让大模型不再只是”回答问题”,而是能”自主干活”。
普通对话:你问一句,它答一句。
Agent 模式:你给一个目标,它自己规划步骤、调用工具、检查结果、修正错误,直到完成。
1 | 你:"帮我预订明天下午从北京到上海的机票" |
Agent 的核心能力:
- 规划:把大目标拆成小步骤
- 调用工具:查数据库、调 API、执行代码
- 记忆:记住上下文和中间结果
- 反思:出错了能自己修正
主流 Agent 框架:
| 框架 | 特点 |
|---|---|
| LangChain | 最早,生态最全,但抽象层太多 |
| AutoGen(微软) | 多 Agent 协作,企业级 |
| CrewAI | 简单易用,角色定义清晰 |
| Dify / Coze | 低代码,拖拽搭建 |
| OpenAI Agents SDK | 官方出品,轻量 |
七、几个常见疑问
Q:AI 真的能”理解”文字吗?
本质上不能。它只是在做极其复杂的”词语接龙”。但因为它见过的文本量太大了(相当于读完人类有史以来出版过的几乎所有书),它做接龙的准确度高到了看起来像”理解”的程度。
Q:大模型会不会胡说八道?
会。这叫”幻觉”(Hallucination)。因为模型本质上是在做概率预测,不是在做逻辑推理。当它遇到不确定的内容时,会基于概率编一个”看起来合理”的答案。减少幻觉的手段:RAG(给事实依据)、让模型展示推理过程、人工审核。
Q:我需要学编程才能用 AI 吗?
用产品(ChatGPT、Kimi 等)不需要。但如果想基于 API 做二次开发、私有化部署、训练自己的模型,就需要。Python 是目前 AI 开发的事实标准。
总结
把这些概念串起来就是一个典型的 AI 应用链路:
1 | 用户提问 |
这些概念不复杂,就是新名词堆在一起显得吓人。一个一个拆开了看,每个都不难理解。