AI 核心概念解析：LLM、Token、Embedding、RAG 与 Agent

前言

最近两年 AI 相关的名词爆发式增长——LLM、RAG、Agent、Embedding、Token、Prompt Engineering……对刚接触这个领域的人来说，信息量大得有些劝退。

这篇文章的目的是用最直白的话，把这些核心概念串一遍。不需要数学基础，不需要编程经验。

一、LLM（大语言模型）

一句话：LLM 就是一个”超级接话机器人”，你说上半句，它接下半句。

从技术角度看，LLM（Large Language Model）是一个在海量文本上训练出来的神经网络，核心能力是预测下一个词（token）应该是什么。

当你在 ChatGPT 里输入”中国的首都是”，模型根据训练时见过的文本，预测下一个词大概率是”北京”。

主流 LLM 盘点（2024-2025）

模型	开发方	特点
GPT-4o / GPT-4.1	OpenAI	综合能力最强，多模态（文字+图片+语音）
Claude 4	Anthropic	长文本处理强，编程能力突出，安全性好
Gemini 2.5	Google	多模态原生，搜索整合好
DeepSeek-V3 / R1	深度求索	国产开源，性价比极高，R1 推理能力强
Qwen 2.5 / 3	阿里通义	开源生态完整，中文能力强
Llama 4	Meta	开源标杆，社区生态最成熟
Kimi	月之暗面	超长上下文（200万字），中文场景优化
豆包 / 文心 / 混元	字节/百度/腾讯	国内 toC 产品，免费额度足

怎么选

日常使用：GPT-4o 或 Claude，哪个顺手用哪个
中文写作/编程：DeepSeek 性价比最高
企业私有化部署：Qwen 或 Llama 开源系列
超长文档处理：Kimi 或 Claude

二、Token（词元）

一句话：Token 是模型”阅读”文本的最小单位，也是计费的基本单位。

你输入一句话，模型会把它切分成 token。1 个 token 约等于 1.5 个中文字或 0.75 个英文单词。

1 2	"今天天气真好" → ["今天", "天气", "真", "好"] → 约 4-6 个 token "Hello World" → ["Hello", " World"] → 2 个 token

为什么 token 重要：

上下文窗口：每个模型一次最多处理 N 个 token，比如 GPT-4o 是 128K，Claude 是 200K。这意味着你可以一次扔进去一本小说的长度
计费：API 按 token 收费，输入和输出分别计费
性能：token 越多，模型推理越慢

各模型上下文窗口对比：

模型	上下文窗口	约等于
GPT-4o	128K	~20 万字
Claude 4	200K	~30 万字
Gemini 2.5	1M	~150 万字
DeepSeek-V3	128K	~20 万字
Kimi	2M	~300 万字

三、Prompt（提示词）

一句话：Prompt 就是你跟大模型说的话，好的 prompt 能让模型输出质量翻倍。

# 普通 prompt
"写一篇关于春天的文章"

# 结构化 prompt（效果明显更好）
"你是一位散文作家。请写一篇 800 字左右的关于春天的散文，
要求：1. 以江南水乡为背景
      2. 融入个人回忆
      3. 语言风格参考朱自清"

写 prompt 的基本原则：

给角色：告诉模型它是谁——“你是一个资深后端工程师”
给约束：明确格式、长度、风格——“用 Markdown 格式，不超过 500 字”
给示例：Few-shot——给 1-3 个输入输出示例
分步骤：复杂任务拆成多步——Chain of Thought（”让我们一步步思考”）

四、Embedding（向量嵌入）

一句话：把文字变成一串数字，让计算机能计算”这段文字和那段文字有多相关”。

1
2
3

"猫"  →  [0.13, -0.45, 0.78, ..., 0.32]   (比如 1536 个数字)
"小猫" →  [0.14, -0.43, 0.76, ..., 0.31]   (和"猫"的向量很接近)
"汽车" →  [-0.82, 0.21, -0.15, ..., 0.67]  (和"猫"的向量差很远)

通俗理解：Embedding 就是给每个文本拍一张”数字照片”。语义越相近的文本，它们的”数字照片”（向量）在数学空间中距离越近。

Embedding 的典型用途：RAG 中的知识检索——用户问了一个问题，系统把问题转成向量，然后在知识库中找最接近的几个文档片段。

常用 Embedding 模型：

模型	维度	中文效果
OpenAI text-embedding-3	256-3072	好
BGE-M3（智源）	1024	很好，开源
GTE-Qwen2（阿里）	1536-4096	很好，开源
Jina Embeddings v3	1024	好，多语言

五、RAG（检索增强生成）

一句话：给大模型外挂一个”知识库”，让它能回答训练数据中没有的内容。

没有 RAG：
  用户："公司今年Q3的营收是多少？"
  模型："抱歉，我无法回答关于未来的问题……"

有 RAG：
  用户："公司今年Q3的营收是多少？"
  系统：1) 从知识库检索 Q3 财报文档
        2) 找到相关段落
        3) 把段落+问题一起发给模型
  模型："根据 Q3 财报，公司营收为 5.2 亿……"

RAG 工作流程：

文档准备 → 文本切片 → Embedding 向量化 → 存入向量数据库
                                              ↓
用户提问 → 问题向量化 → 相似度检索 → 取出 Top-K 文本块
                                              ↓
                   拼接 Prompt → 发给 LLM → 返回带引用的回答

什么时候用 RAG，什么时候用微调：

	RAG	微调（Fine-tuning）
场景	让模型知道它不知道的事实	让模型学会新的行为模式
成本	低，只需向量数据库	高，需要 GPU 训练
更新	实时，更新文档即可	需要重新训练
举例	客服知识库、产品手册问答	特定风格的写作、特定领域的推理

六、Agent（智能体）

一句话：让大模型不再只是”回答问题”，而是能”自主干活”。

普通对话：你问一句，它答一句。

Agent 模式：你给一个目标，它自己规划步骤、调用工具、检查结果、修正错误，直到完成。

你："帮我预订明天下午从北京到上海的机票"

Agent 的思考链：
  1. 我需要先查明天下午有哪些航班 → 调用航班查询 API
  2. 有 5 个航班，3 个经济舱可订
  3. 按价格排序，选最便宜的 → 调用预订 API
  4. 预订成功，订单号 CZ8888
  5. "已为您预订：明天 14:30 北京→上海，CA1234，580元"

全程不需要你参与中间步骤。

Agent 的核心能力：

规划：把大目标拆成小步骤
调用工具：查数据库、调 API、执行代码
记忆：记住上下文和中间结果
反思：出错了能自己修正

主流 Agent 框架：

框架	特点
LangChain	最早，生态最全，但抽象层太多
AutoGen（微软）	多 Agent 协作，企业级
CrewAI	简单易用，角色定义清晰
Dify / Coze	低代码，拖拽搭建
OpenAI Agents SDK	官方出品，轻量

七、几个常见疑问

Q：AI 真的能”理解”文字吗？

本质上不能。它只是在做极其复杂的”词语接龙”。但因为它见过的文本量太大了（相当于读完人类有史以来出版过的几乎所有书），它做接龙的准确度高到了看起来像”理解”的程度。

Q：大模型会不会胡说八道？

会。这叫”幻觉”（Hallucination）。因为模型本质上是在做概率预测，不是在做逻辑推理。当它遇到不确定的内容时，会基于概率编一个”看起来合理”的答案。减少幻觉的手段：RAG（给事实依据）、让模型展示推理过程、人工审核。

Q：我需要学编程才能用 AI 吗？

用产品（ChatGPT、Kimi 等）不需要。但如果想基于 API 做二次开发、私有化部署、训练自己的模型，就需要。Python 是目前 AI 开发的事实标准。

总结

把这些概念串起来就是一个典型的 AI 应用链路：

用户提问
  → Embedding 模型把问题转成向量
  → 向量数据库找到最相关的知识片段（RAG）
  → 拼接成完整的 Prompt
  → 发送给 LLM
  → LLM 返回回答
  → 如果是 Agent，可能还要调用工具、验证结果、多轮规划

这些概念不复杂，就是新名词堆在一起显得吓人。一个一个拆开了看，每个都不难理解。