大语言模型入门指南

发表于2026-04-29|更新于2026-04-30|深度学习

|浏览量:

什么是大语言模型？

大语言模型（Large Language Model，LLM）是一种基于深度学习的自然语言处理模型，能够理解和生成人类语言。

发展历程

时间	模型	特点
2017	Transformer	开创性架构
2018	BERT	双向编码
2018	GPT-1	自回归生成
2020	GPT-3	1750亿参数
2022	ChatGPT	对话能力
2023	GPT-4	多模态能力

核心概念

1. Token（词元）

文本被切分成最小的处理单元，例如：

2. Embedding（嵌入）

将 Token 转换为向量表示，捕捉语义信息。

3. Attention（注意力机制）

让模型关注输入的重要部分：

4. 预训练与微调

预训练：在大规模语料上学习语言知识
微调：在特定任务上优化模型

如何使用 LLM？

API 调用

本地部署

Ollama
LM Studio
vLLM

学习建议

先理解 Transformer 架构
阅读经典论文（Attention is All You Need）
实践：调用 API、微调模型
关注前沿进展

推荐资源

论文：Attention is All You Need
课程：Stanford CS224N
实践：Hugging Face Transformers

文章作者: PFZ7Z7

文章链接: https://pfz7z7.cn/2026/04/29/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%85%A5%E9%97%A8%E6%8C%87%E5%8D%97/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 PFZ7Z7 的学习笔记！

LLM GPT Transformer

相关推荐

尝试本地部署大模型

今天试了一下用 Ollama 在本地跑大模型。安装官网下载安装包，一条命令就装好了： [1m[31mERROR:(B[m This script is intended to run on Linux and macOS only. 跑模型我服务器配置低，选了个小模型 qwen2.5:1.5b：第一次运行会自动下载模型，1.5b 的模型大概 1GB 左右。效果跑起来还行，就是有点慢。问了一些简单的问题，回答质量还可以，比预期好。不过问复杂一点的问题就开始胡说八道了，毕竟是 1.5b 的小模型，不能要求太高。遇到的问题内存不够用的时候会卡死，得把其他服务停掉。看来以后得升级服务器了。下一步想试试微调，但感觉硬件不太够。先了解一下原理吧。

学习LLM-Wiki方法论

最近了解到一个叫 LLM Wiki 的概念，据说是 Andrej Karpathy 提出来的。什么是 LLM Wiki？简单说就是用 LLM 帮你构建个人知识库。传统的做法是：每次查资料都从头开始，问 AI 问题，得到答案，然后忘掉。 LLM Wiki 的做法是：把学到的知识存起来，下次遇到相关问题可以直接用，而且知识之间会自动关联。核心思想1. 知识积累不是每次都从零开始，而是把知识沉淀下来。今天学了一个概念，记录下来，明天遇到相关的问题，可以直接引用。 2. 自动关联LLM 会自动发现知识点之间的联系。比如你记录了”Transformer”和”注意力机制”，它会帮你建立这两个概念之间的链接。 3. 持续更新知识库不是静态的，可以不断补充和修正。我的理解感觉这个思路挺好的。以前学东西总是学了忘，忘了又学。如果能有个系统帮我把知识整理好，确实能提高效率。不过具体怎么实现还没研究透，GitHub 上有一些开源项目，比如 llm-wiki-skill，可以配合 Claude Code 使用。下一步准备试试用这个方法来整理我的学习笔记，看看效果如何。参考： llm-w...

Token到底是什么

看了 llm-wiki 关于 Token 的解释，终于理解了。 Token 不是字之前一直以为 Token 就是字或者词，其实不是。Token 是模型处理文本的最小单位，可能是：一个完整的词一个字一个词的一部分甚至是一个空格比如 “hello” 可能被分成 [“hel”, “lo”] 两个 Token。为什么这样分？因为词太多了，不可能每个词都给一个编号。把词拆成更小的单位，可以：减少词表大小处理没见过的词（新词可以用已有的 Token 组合）中文的情况中文的 Tokenization 比英文复杂。有的模型按字切分，有的按词切分，还有的混合。试了一下 OpenAI 的 Token 计算器，发现中文的 Token 数量比想象的多。一个汉字可能要 2-3 个 Token。实际影响Token 数量影响： API 调用费用（按 Token 计费）模型的上下文长度限制处理速度所以写 Prompt 的时候，简洁一点能省钱。