avatar
文章
10
标签
17
分类
5
首页
归档
PFZ7Z7 的学习笔记
首页
归档

PFZ7Z7 的学习笔记

大语言模型入门指南
发表于2026-04-29|更新于2026-04-30|深度学习|LLM•GPT•Transformer
什么是大语言模型?大语言模型(Large Language Model,LLM)是一种基于深度学习的自然语言处理模型,能够理解和生成人类语言。 发展历程 时间 模型 特点 2017 Transformer 开创性架构 2018 BERT 双向编码 2018 GPT-1 自回归生成 2020 GPT-3 1750亿参数 2022 ChatGPT 对话能力 2023 GPT-4 多模态能力 核心概念1. Token(词元)文本被切分成最小的处理单元,例如: 2. Embedding(嵌入)将 Token 转换为向量表示,捕捉语义信息。 3. Attention(注意力机制)让模型关注输入的重要部分: 4. 预训练与微调 预训练:在大规模语料上学习语言知识 微调:在特定任务上优化模型 如何使用 LLM?API 调用本地部署 Ollama LM Studio vLLM 学习建议 先理解 Transformer 架构 阅读经典论文(Attention is All You Need) 实践:调用 API、微调模型 关注前沿进展 推荐资源 论文:Att...
学习LLM-Wiki方法论
发表于2026-03-20|更新于2026-04-30|学习笔记|LLM•知识管理
最近了解到一个叫 LLM Wiki 的概念,据说是 Andrej Karpathy 提出来的。 什么是 LLM Wiki?简单说就是用 LLM 帮你构建个人知识库。 传统的做法是:每次查资料都从头开始,问 AI 问题,得到答案,然后忘掉。 LLM Wiki 的做法是:把学到的知识存起来,下次遇到相关问题可以直接用,而且知识之间会自动关联。 核心思想1. 知识积累不是每次都从零开始,而是把知识沉淀下来。今天学了一个概念,记录下来,明天遇到相关的问题,可以直接引用。 2. 自动关联LLM 会自动发现知识点之间的联系。比如你记录了”Transformer”和”注意力机制”,它会帮你建立这两个概念之间的链接。 3. 持续更新知识库不是静态的,可以不断补充和修正。 我的理解感觉这个思路挺好的。以前学东西总是学了忘,忘了又学。如果能有个系统帮我把知识整理好,确实能提高效率。 不过具体怎么实现还没研究透,GitHub 上有一些开源项目,比如 llm-wiki-skill,可以配合 Claude Code 使用。 下一步准备试试用这个方法来整理我的学习笔记,看看效果如何。 参考: llm-w...
Token到底是什么
发表于2026-02-15|更新于2026-04-30|学习笔记|LLM•Token
看了 llm-wiki 关于 Token 的解释,终于理解了。 Token 不是字之前一直以为 Token 就是字或者词,其实不是。Token 是模型处理文本的最小单位,可能是: 一个完整的词 一个字 一个词的一部分 甚至是一个空格 比如 “hello” 可能被分成 [“hel”, “lo”] 两个 Token。 为什么这样分?因为词太多了,不可能每个词都给一个编号。把词拆成更小的单位,可以: 减少词表大小 处理没见过的词(新词可以用已有的 Token 组合) 中文的情况中文的 Tokenization 比英文复杂。有的模型按字切分,有的按词切分,还有的混合。 试了一下 OpenAI 的 Token 计算器,发现中文的 Token 数量比想象的多。一个汉字可能要 2-3 个 Token。 实际影响Token 数量影响: API 调用费用(按 Token 计费) 模型的上下文长度限制 处理速度 所以写 Prompt 的时候,简洁一点能省钱。
尝试本地部署大模型
发表于2026-01-18|更新于2026-04-30|实践记录|LLM•Ollama
今天试了一下用 Ollama 在本地跑大模型。 安装官网下载安装包,一条命令就装好了: ERROR:(B This script is intended to run on Linux and macOS only. 跑模型我服务器配置低,选了个小模型 qwen2.5:1.5b: 第一次运行会自动下载模型,1.5b 的模型大概 1GB 左右。 效果跑起来还行,就是有点慢。问了一些简单的问题,回答质量还可以,比预期好。 不过问复杂一点的问题就开始胡说八道了,毕竟是 1.5b 的小模型,不能要求太高。 遇到的问题内存不够用的时候会卡死,得把其他服务停掉。看来以后得升级服务器了。 下一步想试试微调,但感觉硬件不太够。先了解一下原理吧。
用Claude写代码的体验
发表于2025-12-08|更新于2026-04-30|随笔|Claude•AI工具
最近开始用 Claude,感觉比 ChatGPT 更适合写代码。 几个感受1. 代码质量更高Claude 写的代码感觉更规范一些,会考虑边界情况,注释也写得清楚。 2. 上下文更长有时候我会把整个文件贴给它,让它帮我改,它能理解完整的上下文,不会改一半忘了另一半。 3. 解释得更详细问它问题,它会一步步解释为什么这样做,而不是直接给答案。 一个小例子之前写了一个数据清洗的脚本,有点乱,让它帮我重构。它不光改了代码结构,还解释了每个函数的作用,最后给了使用建议。 缺点有时候回答太长了,看着有点累。还有就是高峰期会限流,得等一会才能继续问。 总结AI 辅助编程确实能提高效率,但还是得自己理解代码。不能光复制粘贴,不然出了问题都不知道怎么改。
最近有点懈怠
发表于2025-10-15|更新于2026-04-30|随笔|随笔
距离上次更新已经过去两周了… 最近工作有点忙,下班回来就不想动了。而且学着学着感觉有点迷茫,不知道学到什么程度算入门,也不知道学了之后能干嘛。 看了一些招聘信息,AI 岗位的要求都挺高的,动不动就要硕士博士,或者 3-5 年经验。感觉自学这条路有点难走。 不过转念一想,本来也没打算转行,就是感兴趣学学。既然是兴趣,就别给自己太大压力了。 今天重新捡起来,看了一点 RNN 的内容。RNN 是用来处理序列数据的,比如文本、语音。感觉比 CNN 又难了一些,特别是那个梯度消失的问题。 先继续学着吧,能学多少是多少。反正技多不压身。
CNN学习笔记
发表于2025-09-28|更新于2026-04-30|学习笔记|CNN•计算机视觉
最近在看卷积神经网络(CNN),主要用来处理图像。 为什么需要CNN?普通的全连接神经网络处理图像有两个问题: 参数太多:一张 28x28 的图片就有 784 个输入,如果是彩色图片更多 没有利用空间信息:图片相邻的像素之间是有关系的,全连接层忽略了这一点 CNN的核心组件卷积层用一个小窗口(卷积核)在图片上滑动,提取特征。比如 3x3 的卷积核,每次看 9 个像素。 池化层降低数据量,常用的最大池化就是在小窗口里取最大值。 全连接层最后把提取的特征展平,做分类。 实践跟着教程做了个手写数字识别(MNIST),准确率能到 98% 左右,还挺有成就感的。 代码大概是这样: 不过这个模型很简单,复杂的图像识别还得加深层数。
神经网络入门
发表于2025-08-20|更新于2026-04-30|学习笔记|深度学习•神经网络
终于开始学神经网络了,之前一直觉得这个概念很玄乎。 看了一些视频和文章,大概理解了: 基本概念神经网络就是模仿人脑神经元的工作方式。每个神经元接收输入,加权求和,再通过激活函数输出。 一个最简单的神经网络结构: 输入层:接收数据 隐藏层:提取特征(可以有多个) 输出层:给出结果 激活函数为什么需要激活函数?如果没有激活函数,多层神经网络就等价于线性回归,就没法处理复杂问题了。 常用的激活函数: ReLU:简单好用,f(x) = max(0, x) Sigmoid:把输出压缩到 0-1 之间 Softmax:用于多分类 今天踩的坑用 PyTorch 的时候,忘记把数据转成 Tensor,一直报错… 后来才发现要这样: 还有 GPU 加速的问题,我服务器没有 GPU,只能用 CPU 跑,速度确实慢。 慢慢来吧,先把基础打好。
Python数据处理的坑
发表于2025-07-22|更新于2026-04-30|踩坑记录|Python•Pandas
今天用 Pandas 处理数据,踩了好几个坑,记录一下。 第一个坑:编码问题读取 CSV 文件的时候一直报错,后来发现是编码问题。Windows 上保存的 CSV 默认是 GBK 编码,得指定一下: 第二个坑:SettingWithCopyWarning这个警告看得我一脸懵,查了半天才知道是因为直接在切片上修改数据。 错误写法: 正确写法: 第三个坑:空值处理Pandas 里空值是 NaN,但有时候数据里会有 None、空字符串、’null’ 这种,得先统一处理一下。 今天就这样,数据处理真的很费时间,感觉 80% 的时间都在清洗数据…
搭建这个博客
发表于2025-07-10|更新于2026-04-30|随笔|博客•记录
花了一天时间终于把这个博客搭起来了。 其实本来想用 WordPress 的,但是服务器配置比较低(2核1.7G内存),怕跑不动。后来在知乎上看到有人推荐 Hexo,说是静态博客,不需要数据库,刚好适合我的情况。 安装过程倒是挺顺利的,就是主题改起来有点麻烦。默认的 landscape 主题其实也还行,先凑合用着吧,以后有空再换。 这个博客主要用来记录一些学习笔记,最近在学 AI 相关的东西,感觉要记的东西太多了,脑子记不住,还是写下来靠谱。 对了,今天还顺便把服务器的 Docker 日志清理了一下,居然占了 26G… 之前完全没注意到,磁盘都快满了。看来以后得定期检查一下。 先这样吧,明天继续学习。
avatar
PFZ7Z7
AI 学习之路
文章
10
标签
17
分类
5
Follow Me
最新文章
大语言模型入门指南2026-04-29
学习LLM-Wiki方法论2026-03-20
Token到底是什么2026-02-15
尝试本地部署大模型2026-01-18
用Claude写代码的体验2025-12-08
分类
  • 学习笔记4
  • 实践记录1
  • 深度学习1
  • 踩坑记录1
  • 随笔3
标签
CNN计算机视觉PythonPandasLLMTokenGPTTransformer知识管理Ollama博客记录随笔ClaudeAI工具深度学习神经网络
归档
  • 四月 2026 1
  • 三月 2026 1
  • 二月 2026 1
  • 一月 2026 1
  • 十二月 2025 1
  • 十月 2025 1
  • 九月 2025 1
  • 八月 2025 1
网站信息
文章数目 :
10
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By PFZ7Z7框架 Hexo 8.1.1|主题 Butterfly 5.5.4
PFZ7Z7 的学习笔记