首页 > 基础资料 博客日记

transformer学习资源汇总

2026-04-10 18:00:03基础资料围观1

文章transformer学习资源汇总分享给大家,欢迎收藏极客资料网,专注分享技术知识

原文:https://mp.weixin.qq.com/s/qap5mePkP2rVbVSMsaBUMw
欢迎关注公zh: AI-Frontiers

苏剑林大师的博客

序号 发布日期 文章标题 链接
1 2021-03-08 Sinusoidal位置编码追根溯源 https://spaces.ac.cn/archives/8231
2 2021-03-23 博采众长的旋转式位置编码 https://spaces.ac.cn/archives/8265
3 2021-04-22 从Performer到线性Attention https://spaces.ac.cn/archives/8311
4 2021-05-10 二维位置的旋转式位置编码 https://spaces.ac.cn/archives/8397
5 2021-08-06 作为无限维的线性Attention https://spaces.ac.cn/archives/8566
6 2022-12-28 旋转位置编码的完备性分析 https://spaces.ac.cn/archives/9403
7 2023-01-12 长度外推性与局部注意力 https://spaces.ac.cn/archives/9431
8 2023-01-31 长度外推性与位置鲁棒性 https://spaces.ac.cn/archives/9444
9 2023-05-12 一种全局长度外推的新思路 https://spaces.ac.cn/archives/9513
10 2023-07-06 RoPE是一种β进制编码 https://spaces.ac.cn/archives/9675
11 2023-07-31 将β进制位置进行到底 https://spaces.ac.cn/archives/9700
12 2023-08-07 无限外推的ReRoPE? https://spaces.ac.cn/archives/9708
13 2023-08-14 逆用Leaky ReRoPE https://spaces.ac.cn/archives/9723
14 2023-08-24 当HWFA遇见ReRoPE https://spaces.ac.cn/archives/9731
15 2023-11-20 Key归一化助力长度外推 https://spaces.ac.cn/archives/9859
16 2024-01-26 "复盘"长度外推技术 https://spaces.ac.cn/archives/9948
17 2024-03-29 多模态位置编码的简单思考 https://spaces.ac.cn/archives/10040
18 2024-05-29 RoPE的底数选择原则 https://spaces.ac.cn/archives/10122
19 2025-04-18 第二类旋转位置编码 https://spaces.ac.cn/archives/10862
20 2025-05-04 MLA好在哪里?(上) https://spaces.ac.cn/archives/10907
21 2025-07-10 MLA好在哪里?(下) https://spaces.ac.cn/archives/11111

入门系列

序号 发布日期 文章标题 链接 备注
1 2017-06-12 Attention Is All You Need https://arxiv.org/abs/1706.03762 Transformer 的奠基之作,定义了整个领域的演进方向
2 2018-06-27 The Illustrated Transformer http://jalammar.github.io/illustrated-transformer/

图解Transformer | The Illustrated Transformer
视觉化讲解的行业标准,极大地降低了直观理解的门槛
3 2023-01-27 The Transformer Family (Lilian Weng) https://lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/

https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/
由 OpenAI 首席研究员撰写,提供了严谨的架构演进综述与技术总结
4 2021-01-11 Breaking Down the Transformer https://aman.ai/primers/ai/transformers/ 对架构组件进行模块化拆解,适合从工程角度深入理解
5 2020-12-24 How Transformers work in deep learning and NLP: an intuitive introduction https://theaisummer.com/transformer/ 起源、核心架构(如自注意力机制)及其在深度学习领域的影响,是学习NLP基础架构的深度技术教程
6 2018-04-03 The Annotated Transformer https://nlp.seas.harvard.edu/annotated-transformer/

https://github.com/harvardnlp/annotated-transformer
提供 Transformer 论文的逐行代码实现与详细解析
7 2019-08-18 Transformers from scratch https://peterbloem.nl/blog/transformers 详细讲解自注意力机制,附带完整的 PyTorch 代码,教你从零实现一个 Transformer
8 2018-06-24 Attention? Attention! https://lilianweng.github.io/posts/2018-06-24-attention/ 深入讲解各类注意力机制的原理与发展,适合想要深入理解注意力机制的学习者

github开源生态

仓库名称 网址 定位与特色
awesome-transformer-nlp https://github.com/cedrickchee/awesome-transformer-nlp 全球最受欢迎的 Transformer 资源列表,更新频率高
awesome-transformer (ICTNLP) https://github.com/ictnlp/awesome-transformer 侧重于模型实现与 WMT 翻译基准测试的可复现性
awesome-transformers (abacaj) https://github.com/abacaj/awesome-transformers 聚焦于模型许可协议与模型来源,适合企业级选型
Transformers-Recipe https://github.com/dair-ai/Transformers-Recipe 旨在提供一份“从入门到精通”的结构化学习路线图
Awesome-Visual-Transformer https://github.com/dk-liang/Awesome-Visual-Transformer 专注于视觉 Transformer (ViT) 及其在医学成像等领域的应用
Awesome-Transformer-Attention (视觉Transformer) https://github.com/cmhungsteve/Awesome-Transformer-Attention 最全面的视觉 Transformer/Attention 论文列表,包含代码和相关网站
Awesome-Transformer-Visualization https://github.com/Ki-Seki/Awesome-Transformer-Visualization Transformer 可视化工具汇总,包括 Transformer Explainer、GemmaScope 等
BertViz https://github.com/jessevig/bertvizS Transformer 注意力可视化工具,支持 Head View、Model View、Neuron View 三重视图,可直观查看模型的注意力权重分布

官方与第三方高性能框架

框架/项目 网址 适用场景
Tensor2Tensor (Google) https://github.com/tensorflow/tensor2tensor Transformer 的官方原始实现,基于 TensorFlow
OpenNMT-py (Harvard) https://github.com/OpenNMT/OpenNMT-py 基于 PyTorch 的机器翻译工具包,因其高可扩展性广受好评
Fairseq (Meta AI) https://github.com/facebookresearch/fairseq Meta 开发的高性能序列建模工具,RoBERTa 等模型即诞生于此
X-Transformers https://github.com/lucidrains/x-transformers 提供简洁且功能完整的全注意力实现,适合实验性研究
transformers https://github.com/huggingface/transformers 提供最先进的预训练模型,用于处理 NLP、图像及音频任务。

课程学习

提供方 课程 核心技能点
DeepLearning.AI https://www.deeplearning.ai/courses/deep-learning-specialization/ RNN/LSTM/Transformer 的理论与实践
Stanford https://web.stanford.edu/class/cs224n/

https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1214/

https://web.stanford.edu/class/cs25/
经典的深度学习自然语言处理(CS224N)课程主页,涵盖了Transformer、语言模型等前沿NLP技术与讲义。
Hugging Face https://github.com/huggingface/course Hugging Face 官方出品的免费开源课程,基于其生态教学,覆盖 Transformer 在文本、音频等多模态任务的应用,部分课程支持中文
亚马逊 https://github.com/d2l-ai/d2l-en 亚马逊科学家团队维护的互动式深度学习书籍,涵盖 Transformer 理论推导与 PyTorch、TensorFlow、MXNet 多框架代码实现,被全球 500 余所名校用作教材。

文章来源:https://www.cnblogs.com/aifrontiers/p/19848081
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!

标签:

相关文章

本站推荐

标签云