从原理到代码,讲解如何从零开始构建一个miniGPT模型
本文章参考学习项目: https://github.com/bbruceyuan/LLMs-Zero-to-Hero 一、引言 简单来说,我们在做一件“自己造轮子”的事:不依赖现成的深度学习库(如HuggingFace Transformers),仅使用PyTorch的基础组件,从零实现一个简化版的GPT模型,并用它来训练和生成文本。 总体思路如下: 1. 第一步:定义蓝图(配置) 代码开头的GPTConfig类定义了模型的“超参数”,比如有多少层(n_layer)、多少个头(n_head)、嵌入维度(n_embd)等。这就像一个建筑图纸,规定了积木的大小和形状。 2. 第二步:搭建基础积木(核心组件) 从最核心的“单头注意力机制”(SingleHeadAttention)开始写。这里手动实现了Q、K、V的线性变换,以及因果掩码(causal mask),确保模型只能看到当前位置之前的信息,这是GPT模型能够做预测的关键。 接着,将单头注意力并行化,组装成“多头注意力”(MultiHeadAttention)。这就像是把多个单头注意力拼在一起,让模型能从不同角度理解文本。 ...
初学者都能看懂的对The Impact of Trade on Intra-Industry Reallocations and Aggregate Industry(Melitz,2003)全文推导及读后感
《初学者都能看懂的对The Impact of Trade on Intra-Industry Reallocations and Aggregate Industry(Melitz,2003)全文推导及读后感》 这篇文章写于我刚入门经济学的时候,那时候的我还非常的懵懂、十分的青涩,没想到现在却与原来的科研道路渐行渐远。 此时此刻,或许是站在了彻底告别科研的路口,无意间又翻出了当年写下的这篇文章,不禁十分感慨。我打算把这篇文章放在我的博客上(也同步在知乎),供大家在学习原文时参考,里面讲了Melitz的模型是什么样的,他为什么会这样去构建这个模型,以及怎样去构建这个模型的。 里面的内容我写的非常详细,可供刚刚学经济学的朋友参考,毕竟当时我也是个初学者(笑)。话不多说,让我们立即开始: 一、引言 李嘉图从比较优势论述了国家间的贸易理论;保罗·克鲁格曼将运输成本纳入到贸易理论分析中,开创了新经济地理理论;马克·J·梅里兹则将异质性企业理论融入到新经济地理学中,建立了新新经济地理学。如果说新经济地理理论的“新”指企业间运输成本与规模报酬的差异,那新新经济地理的“新”就是指生产率的差异。...
超全Stable Diffusion AI绘画参数及原理详解
本文章(超全Stable Diffusion AI绘画参数及原理详解–A Comprehensive Guide to Stable Diffusion AI Painting Parameters and Principles)主要介绍stable diffusion中的相关参数,整套模型是基于stable diffusion 1.X 的版本。 这篇文章相当于个人的学习笔记,全文近两万字,建议配合目录观看。 每小节都配有相关理论出处或参考文章,并附上了相应链接。 感谢各位大佬对知识的分享以及模型的开源! 如果需要更好的阅读体验,可以翻阅我在知乎上的原文:https://zhuanlan.zhihu.com/p/649749094 (里面的图片都是一致的~) 1. 基础模型和外挂VAE模型 参考文章:https://www.bilibili.com/read/cv24601837/ https://zhuanlan.zhihu.com/p/622410028 1.1 基本术语讲解 基础模型(大模型/底模型):属于预调模型,它决定了AI图片的主要风格。 VAE模型:全称Vari...


