PFZ7Z7 的学习笔记

发表于2026-04-29|更新于2026-04-30|深度学习|LLM•GPT•Transformer

什么是大语言模型？大语言模型（Large Language Model，LLM）是一种基于深度学习的自然语言处理模型，能够理解和生成人类语言。发展历程时间模型特点 2017 Transformer 开创性架构 2018 BERT 双向编码 2018 GPT-1 自回归生成 2020 GPT-3 1750亿参数 2022 ChatGPT 对话能力 2023 GPT-4 多模态能力核心概念1. Token（词元）文本被切分成最小的处理单元，例如： 2. Embedding（嵌入）将 Token 转换为向量表示，捕捉语义信息。 3. Attention（注意力机制）让模型关注输入的重要部分： 4. 预训练与微调预训练：在大规模语料上学习语言知识微调：在特定任务上优化模型如何使用 LLM？API 调用本地部署 Ollama LM Studio vLLM 学习建议先理解 Transformer 架构阅读经典论文（Attention is All You Need）实践：调用 API、微调模型关注前沿进展推荐资源论文：Att...

学习LLM-Wiki方法论

发表于2026-03-20|更新于2026-04-30|学习笔记|LLM•知识管理

最近了解到一个叫 LLM Wiki 的概念，据说是 Andrej Karpathy 提出来的。什么是 LLM Wiki？简单说就是用 LLM 帮你构建个人知识库。传统的做法是：每次查资料都从头开始，问 AI 问题，得到答案，然后忘掉。 LLM Wiki 的做法是：把学到的知识存起来，下次遇到相关问题可以直接用，而且知识之间会自动关联。核心思想1. 知识积累不是每次都从零开始，而是把知识沉淀下来。今天学了一个概念，记录下来，明天遇到相关的问题，可以直接引用。 2. 自动关联LLM 会自动发现知识点之间的联系。比如你记录了”Transformer”和”注意力机制”，它会帮你建立这两个概念之间的链接。 3. 持续更新知识库不是静态的，可以不断补充和修正。我的理解感觉这个思路挺好的。以前学东西总是学了忘，忘了又学。如果能有个系统帮我把知识整理好，确实能提高效率。不过具体怎么实现还没研究透，GitHub 上有一些开源项目，比如 llm-wiki-skill，可以配合 Claude Code 使用。下一步准备试试用这个方法来整理我的学习笔记，看看效果如何。参考： llm-w...

Token到底是什么

发表于2026-02-15|更新于2026-04-30|学习笔记|LLM•Token

看了 llm-wiki 关于 Token 的解释，终于理解了。 Token 不是字之前一直以为 Token 就是字或者词，其实不是。Token 是模型处理文本的最小单位，可能是：一个完整的词一个字一个词的一部分甚至是一个空格比如 “hello” 可能被分成 [“hel”, “lo”] 两个 Token。为什么这样分？因为词太多了，不可能每个词都给一个编号。把词拆成更小的单位，可以：减少词表大小处理没见过的词（新词可以用已有的 Token 组合）中文的情况中文的 Tokenization 比英文复杂。有的模型按字切分，有的按词切分，还有的混合。试了一下 OpenAI 的 Token 计算器，发现中文的 Token 数量比想象的多。一个汉字可能要 2-3 个 Token。实际影响Token 数量影响： API 调用费用（按 Token 计费）模型的上下文长度限制处理速度所以写 Prompt 的时候，简洁一点能省钱。

尝试本地部署大模型

发表于2026-01-18|更新于2026-04-30|实践记录|LLM•Ollama

今天试了一下用 Ollama 在本地跑大模型。安装官网下载安装包，一条命令就装好了： [1m[31mERROR:(B[m This script is intended to run on Linux and macOS only. 跑模型我服务器配置低，选了个小模型 qwen2.5:1.5b：第一次运行会自动下载模型，1.5b 的模型大概 1GB 左右。效果跑起来还行，就是有点慢。问了一些简单的问题，回答质量还可以，比预期好。不过问复杂一点的问题就开始胡说八道了，毕竟是 1.5b 的小模型，不能要求太高。遇到的问题内存不够用的时候会卡死，得把其他服务停掉。看来以后得升级服务器了。下一步想试试微调，但感觉硬件不太够。先了解一下原理吧。

用Claude写代码的体验

发表于2025-12-08|更新于2026-04-30|随笔|Claude•AI工具

最近开始用 Claude，感觉比 ChatGPT 更适合写代码。几个感受1. 代码质量更高Claude 写的代码感觉更规范一些，会考虑边界情况，注释也写得清楚。 2. 上下文更长有时候我会把整个文件贴给它，让它帮我改，它能理解完整的上下文，不会改一半忘了另一半。 3. 解释得更详细问它问题，它会一步步解释为什么这样做，而不是直接给答案。一个小例子之前写了一个数据清洗的脚本，有点乱，让它帮我重构。它不光改了代码结构，还解释了每个函数的作用，最后给了使用建议。缺点有时候回答太长了，看着有点累。还有就是高峰期会限流，得等一会才能继续问。总结AI 辅助编程确实能提高效率，但还是得自己理解代码。不能光复制粘贴，不然出了问题都不知道怎么改。

最近有点懈怠

发表于2025-10-15|更新于2026-04-30|随笔|随笔

距离上次更新已经过去两周了… 最近工作有点忙，下班回来就不想动了。而且学着学着感觉有点迷茫，不知道学到什么程度算入门，也不知道学了之后能干嘛。看了一些招聘信息，AI 岗位的要求都挺高的，动不动就要硕士博士，或者 3-5 年经验。感觉自学这条路有点难走。不过转念一想，本来也没打算转行，就是感兴趣学学。既然是兴趣，就别给自己太大压力了。今天重新捡起来，看了一点 RNN 的内容。RNN 是用来处理序列数据的，比如文本、语音。感觉比 CNN 又难了一些，特别是那个梯度消失的问题。先继续学着吧，能学多少是多少。反正技多不压身。

CNN学习笔记

发表于2025-09-28|更新于2026-04-30|学习笔记|CNN•计算机视觉

最近在看卷积神经网络（CNN），主要用来处理图像。为什么需要CNN？普通的全连接神经网络处理图像有两个问题：参数太多：一张 28x28 的图片就有 784 个输入，如果是彩色图片更多没有利用空间信息：图片相邻的像素之间是有关系的，全连接层忽略了这一点 CNN的核心组件卷积层用一个小窗口（卷积核）在图片上滑动，提取特征。比如 3x3 的卷积核，每次看 9 个像素。池化层降低数据量，常用的最大池化就是在小窗口里取最大值。全连接层最后把提取的特征展平，做分类。实践跟着教程做了个手写数字识别（MNIST），准确率能到 98% 左右，还挺有成就感的。代码大概是这样：不过这个模型很简单，复杂的图像识别还得加深层数。

神经网络入门

发表于2025-08-20|更新于2026-04-30|学习笔记|深度学习•神经网络

终于开始学神经网络了，之前一直觉得这个概念很玄乎。看了一些视频和文章，大概理解了：基本概念神经网络就是模仿人脑神经元的工作方式。每个神经元接收输入，加权求和，再通过激活函数输出。一个最简单的神经网络结构：输入层：接收数据隐藏层：提取特征（可以有多个）输出层：给出结果激活函数为什么需要激活函数？如果没有激活函数，多层神经网络就等价于线性回归，就没法处理复杂问题了。常用的激活函数： ReLU：简单好用，f(x) = max(0, x) Sigmoid：把输出压缩到 0-1 之间 Softmax：用于多分类今天踩的坑用 PyTorch 的时候，忘记把数据转成 Tensor，一直报错… 后来才发现要这样：还有 GPU 加速的问题，我服务器没有 GPU，只能用 CPU 跑，速度确实慢。慢慢来吧，先把基础打好。

Python数据处理的坑

发表于2025-07-22|更新于2026-04-30|踩坑记录|Python•Pandas

今天用 Pandas 处理数据，踩了好几个坑，记录一下。第一个坑：编码问题读取 CSV 文件的时候一直报错，后来发现是编码问题。Windows 上保存的 CSV 默认是 GBK 编码，得指定一下：第二个坑：SettingWithCopyWarning这个警告看得我一脸懵，查了半天才知道是因为直接在切片上修改数据。错误写法：正确写法：第三个坑：空值处理Pandas 里空值是 NaN，但有时候数据里会有 None、空字符串、’null’ 这种，得先统一处理一下。今天就这样，数据处理真的很费时间，感觉 80% 的时间都在清洗数据…

搭建这个博客

发表于2025-07-10|更新于2026-04-30|随笔|博客•记录

花了一天时间终于把这个博客搭起来了。其实本来想用 WordPress 的，但是服务器配置比较低（2核1.7G内存），怕跑不动。后来在知乎上看到有人推荐 Hexo，说是静态博客，不需要数据库，刚好适合我的情况。安装过程倒是挺顺利的，就是主题改起来有点麻烦。默认的 landscape 主题其实也还行，先凑合用着吧，以后有空再换。这个博客主要用来记录一些学习笔记，最近在学 AI 相关的东西，感觉要记的东西太多了，脑子记不住，还是写下来靠谱。对了，今天还顺便把服务器的 Docker 日志清理了一下，居然占了 26G… 之前完全没注意到，磁盘都快满了。看来以后得定期检查一下。先这样吧，明天继续学习。