什么是大语言模型?

大语言模型(Large Language Model,LLM)是一种基于深度学习的自然语言处理模型,能够理解和生成人类语言。

发展历程

时间 模型 特点
2017 Transformer 开创性架构
2018 BERT 双向编码
2018 GPT-1 自回归生成
2020 GPT-3 1750亿参数
2022 ChatGPT 对话能力
2023 GPT-4 多模态能力

核心概念

1. Token(词元)

文本被切分成最小的处理单元,例如:

2. Embedding(嵌入)

将 Token 转换为向量表示,捕捉语义信息。

3. Attention(注意力机制)

让模型关注输入的重要部分:

4. 预训练与微调

  • 预训练:在大规模语料上学习语言知识
  • 微调:在特定任务上优化模型

如何使用 LLM?

API 调用

本地部署

  • Ollama
  • LM Studio
  • vLLM

学习建议

  1. 先理解 Transformer 架构
  2. 阅读经典论文(Attention is All You Need)
  3. 实践:调用 API、微调模型
  4. 关注前沿进展

推荐资源