大语言模型（LLM）

什么是大语言模型

大语言模型（Large Language Model，简称 LLM）是当前 AI 浪潮的核心技术。你可以把它理解为一个读过互联网上几乎所有文字的超级助手。

它的工作原理简单来说就是：预测下一个词。

当你问它"中国的首都是"，它会根据训练数据中的海量知识，预测下一个最可能的词是"北京"。这个简单的机制，加上海量数据和超大规模的计算，产生了惊人的能力——不只是填空，还能推理、创作、分析、编程。

你不需要理解原理，只需要知道：它很强，但它本质上是在做概率预测，所以有时候会说错话。

三个必须知道的概念

1. Token（令牌）— AI 怎么收费的

AI 不是按字数收费的，是按 Token 收费的。Token 是模型处理文本的最小单位：

语言	大约换算
英文	1 Token ≈ 0.75 个英文单词
中文	1 Token ≈ 0.5-1 个汉字

为什么你要知道这个？ 因为你跟 AI 说话是要花钱的（用 API 时），Token 数决定了成本。

一次普通对话大约消耗 1,000-3,000 Token，按通义千问的价格算大约 ¥0.001-0.01。

2. 上下文窗口 — AI 能记住多少内容

上下文窗口（Context Window）就是 AI 一次对话能处理的最大文本量。

模型	上下文窗口	大约相当于
GPT-4o	128K Token	一本 10 万字的书
Claude Opus 4	200K Token	一本 15 万字的书
Kimi	256K Token	一本 20 万字的书
DeepSeek V3	128K Token	一本 10 万字的书

为什么你要知道这个？ 如果你想让 AI 分析一份 100 页的报告，你需要模型的上下文窗口够大。窗口太小，AI 会"忘记"前面的内容。

3. 温度（Temperature）— 控制 AI 的创造性

温度	AI 表现	适合场景
低（0-0.3）	保守、稳定、每次回答差不多	客服回复、数据分析、翻译
中（0.5-0.7）	平衡	商业文案、报告
高（0.8-1.0）	创造性强、每次不一样	头脑风暴、创意写作

大多数 AI 工具的默认温度都是中等，不需要你手动调。但如果你用 API 或高级工具，知道这个参数可以让你控制输出质量。

主流大模型一览

国内模型（中国直接用）

模型	公司	价格	最适合
豆包	字节跳动	免费	日常文案、快速问答，中文最强之一
通义千问	阿里云	免费对话，API 极便宜	综合能力强，开源可私有部署
Kimi	月之暗面	免费额度	超长文档分析（256K Token）
文心一言	百度	免费	联网搜索、日常使用
DeepSeek	深度求索	免费/极低价	推理能力强，性价比极高

国际模型（需要翻墙）

模型	公司	价格	最适合
GPT-4o / o3	OpenAI	$20/月	综合最强，多模态，英文场景
Claude Opus 4	Anthropic	$20/月	长文写作、代码、深度分析
Gemini 3.0 Pro	Google	免费/付费	联网搜索，与 Google 生态集成

怎么选？

如果你的业务主要面向中国市场，国内模型就够了——免费、中文好、无需翻墙。详细对比看 → AI工具实测

大模型能做什么

写：文案、邮件、报告、方案、代码
读：总结长文档、提取关键信息、翻译
分析：数据分析、竞品分析、市场调研
对话：客服回复、问题解答、头脑风暴
多模态：看图写文案、生成图片（部分模型）
调用工具：连接你的数据库、搜索引擎、业务系统（通过 Skills 和 MCP）

大模型的局限性

必须了解的三个坑

会编东西（幻觉）：AI 可能非常自信地说出完全不对的话。关键数据一定要核实。
知识有截止：模型的知识有截止日期，不知道最近发生的事（除非联网搜索）。
输入可能被读取：你输入给 AI 的内容，要假设平台可能读取。核心商业机密不要输入。

解决幻觉的最佳方法：让 AI 基于你的文档回答（RAG 知识库），而不是让它凭空回答。

想深入了解？

企业怎么选模型、怎么做试点 → 大模型篇（企业落地）
让 AI 用你自己的数据回答 → RAG 知识库教程
让 AI 连接你的业务系统 → MCP 教程
具体每个工具的价格和实测 → AI工具实测
大模型的 100 个概念速查 → AI 100概念

下一步

了解了大模型后，来看看如何更好地使用它——提示工程。

大语言模型（LLM） ​

什么是大语言模型 ​

三个必须知道的概念 ​

1. Token（令牌）— AI 怎么收费的 ​

2. 上下文窗口 — AI 能记住多少内容 ​

3. 温度（Temperature）— 控制 AI 的创造性 ​

主流大模型一览 ​

国内模型（中国直接用） ​

国际模型（需要翻墙） ​

大模型能做什么 ​

大模型的局限性 ​

想深入了解？ ​

下一步 ​