首页 > 基础资料博客日记

transformer学习资源汇总

2026-04-10 18:00:03基础资料围观1次

文章transformer学习资源汇总分享给大家，欢迎收藏极客资料网，专注分享技术知识

原文：https://mp.weixin.qq.com/s/qap5mePkP2rVbVSMsaBUMw
欢迎关注公zh: AI-Frontiers

苏剑林大师的博客


序号	发布日期	文章标题	链接
1	2021-03-08	Sinusoidal位置编码追根溯源	https://spaces.ac.cn/archives/8231
2	2021-03-23	博采众长的旋转式位置编码	https://spaces.ac.cn/archives/8265
3	2021-04-22	从Performer到线性Attention	https://spaces.ac.cn/archives/8311
4	2021-05-10	二维位置的旋转式位置编码	https://spaces.ac.cn/archives/8397
5	2021-08-06	作为无限维的线性Attention	https://spaces.ac.cn/archives/8566
6	2022-12-28	旋转位置编码的完备性分析	https://spaces.ac.cn/archives/9403
7	2023-01-12	长度外推性与局部注意力	https://spaces.ac.cn/archives/9431
8	2023-01-31	长度外推性与位置鲁棒性	https://spaces.ac.cn/archives/9444
9	2023-05-12	一种全局长度外推的新思路	https://spaces.ac.cn/archives/9513
10	2023-07-06	RoPE是一种β进制编码	https://spaces.ac.cn/archives/9675
11	2023-07-31	将β进制位置进行到底	https://spaces.ac.cn/archives/9700
12	2023-08-07	无限外推的ReRoPE？	https://spaces.ac.cn/archives/9708
13	2023-08-14	逆用Leaky ReRoPE	https://spaces.ac.cn/archives/9723
14	2023-08-24	当HWFA遇见ReRoPE	https://spaces.ac.cn/archives/9731
15	2023-11-20	Key归一化助力长度外推	https://spaces.ac.cn/archives/9859
16	2024-01-26	"复盘"长度外推技术	https://spaces.ac.cn/archives/9948
17	2024-03-29	多模态位置编码的简单思考	https://spaces.ac.cn/archives/10040
18	2024-05-29	RoPE的底数选择原则	https://spaces.ac.cn/archives/10122
19	2025-04-18	第二类旋转位置编码	https://spaces.ac.cn/archives/10862
20	2025-05-04	MLA好在哪里?（上）	https://spaces.ac.cn/archives/10907
21	2025-07-10	MLA好在哪里?（下）	https://spaces.ac.cn/archives/11111

入门系列


序号	发布日期	文章标题	链接	备注
1	2017-06-12	Attention Is All You Need	https://arxiv.org/abs/1706.03762	Transformer 的奠基之作，定义了整个领域的演进方向
2	2018-06-27	The Illustrated Transformer	http://jalammar.github.io/illustrated-transformer/ 图解Transformer \| The Illustrated Transformer	视觉化讲解的行业标准，极大地降低了直观理解的门槛
3	2023-01-27	The Transformer Family (Lilian Weng)	https://lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/ https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/	由 OpenAI 首席研究员撰写，提供了严谨的架构演进综述与技术总结
4	2021-01-11	Breaking Down the Transformer	https://aman.ai/primers/ai/transformers/	对架构组件进行模块化拆解，适合从工程角度深入理解
5	2020-12-24	How Transformers work in deep learning and NLP: an intuitive introduction	https://theaisummer.com/transformer/	起源、核心架构（如自注意力机制）及其在深度学习领域的影响，是学习NLP基础架构的深度技术教程
6	2018-04-03	The Annotated Transformer	https://nlp.seas.harvard.edu/annotated-transformer/ https://github.com/harvardnlp/annotated-transformer	提供 Transformer 论文的逐行代码实现与详细解析
7	2019-08-18	Transformers from scratch	https://peterbloem.nl/blog/transformers	详细讲解自注意力机制，附带完整的 PyTorch 代码，教你从零实现一个 Transformer
8	2018-06-24	Attention? Attention!	https://lilianweng.github.io/posts/2018-06-24-attention/	深入讲解各类注意力机制的原理与发展，适合想要深入理解注意力机制的学习者

github开源生态


仓库名称	网址	定位与特色
awesome-transformer-nlp	https://github.com/cedrickchee/awesome-transformer-nlp	全球最受欢迎的 Transformer 资源列表，更新频率高
awesome-transformer (ICTNLP)	https://github.com/ictnlp/awesome-transformer	侧重于模型实现与 WMT 翻译基准测试的可复现性
awesome-transformers (abacaj)	https://github.com/abacaj/awesome-transformers	聚焦于模型许可协议与模型来源，适合企业级选型
Transformers-Recipe	https://github.com/dair-ai/Transformers-Recipe	旨在提供一份“从入门到精通”的结构化学习路线图
Awesome-Visual-Transformer	https://github.com/dk-liang/Awesome-Visual-Transformer	专注于视觉 Transformer (ViT) 及其在医学成像等领域的应用
Awesome-Transformer-Attention (视觉Transformer)	https://github.com/cmhungsteve/Awesome-Transformer-Attention	最全面的视觉 Transformer/Attention 论文列表，包含代码和相关网站
Awesome-Transformer-Visualization	https://github.com/Ki-Seki/Awesome-Transformer-Visualization	Transformer 可视化工具汇总，包括 Transformer Explainer、GemmaScope 等
BertViz	https://github.com/jessevig/bertvizS	Transformer 注意力可视化工具，支持 Head View、Model View、Neuron View 三重视图，可直观查看模型的注意力权重分布

官方与第三方高性能框架


框架/项目	网址	适用场景
Tensor2Tensor (Google)	https://github.com/tensorflow/tensor2tensor	Transformer 的官方原始实现，基于 TensorFlow
OpenNMT-py (Harvard)	https://github.com/OpenNMT/OpenNMT-py	基于 PyTorch 的机器翻译工具包，因其高可扩展性广受好评
Fairseq (Meta AI)	https://github.com/facebookresearch/fairseq	Meta 开发的高性能序列建模工具，RoBERTa 等模型即诞生于此
X-Transformers	https://github.com/lucidrains/x-transformers	提供简洁且功能完整的全注意力实现，适合实验性研究
transformers	https://github.com/huggingface/transformers	提供最先进的预训练模型，用于处理 NLP、图像及音频任务。

课程学习


提供方	课程	核心技能点
DeepLearning.AI	https://www.deeplearning.ai/courses/deep-learning-specialization/	RNN/LSTM/Transformer 的理论与实践
Stanford	https://web.stanford.edu/class/cs224n/ https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1214/ https://web.stanford.edu/class/cs25/	经典的深度学习自然语言处理（CS224N）课程主页，涵盖了Transformer、语言模型等前沿NLP技术与讲义。
Hugging Face	https://github.com/huggingface/course	Hugging Face 官方出品的免费开源课程，基于其生态教学，覆盖 Transformer 在文本、音频等多模态任务的应用，部分课程支持中文
亚马逊	https://github.com/d2l-ai/d2l-en	亚马逊科学家团队维护的互动式深度学习书籍，涵盖 Transformer 理论推导与 PyTorch、TensorFlow、MXNet 多框架代码实现，被全球 500 余所名校用作教材。

文章来源:https://www.cnblogs.com/aifrontiers/p/19848081
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：jacktools123@163.com进行投诉反馈，一经查实，立即删除！

标签：

上一篇：Jenkins 自动触发构建配置手册
下一篇：PostgREST 与 PostgreSQL 角色权限配置全解析（生产级实践）

首页 > 基础资料博客日记

transformer学习资源汇总

苏剑林大师的博客

入门系列

github开源生态

官方与第三方高性能框架

课程学习

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料 博客日记

transformer学习资源汇总

苏剑林大师的博客

入门系列

github开源生态

官方与第三方高性能框架

课程学习

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 基础资料博客日记