back to home

mli / paper-reading

深度学习经典、新论文逐段精读

32,576 stars
2,778 forks
1 issues

AI Architecture Analysis

This repository is indexed by RepoMind. By analyzing mli/paper-reading in our AI interface, you can instantly generate complete architecture diagrams, visualize control flows, and perform automated security audits across the entire codebase.

Our Agentic Context Augmented Generation (Agentic CAG) engine loads full source files into context, avoiding the fragmentation of traditional RAG systems. Ask questions about the architecture, dependencies, or specific features to see it in action.

Embed this Badge

Showcase RepoMind's analysis directly in your repository's README.

[![Analyzed by RepoMind](https://img.shields.io/badge/Analyzed%20by-RepoMind-4F46E5?style=for-the-badge)](https://repomind-ai.vercel.app/repo/mli/paper-reading)
Preview:Analyzed by RepoMind

Repository Summary (README)

Preview

深度学习论文精读

录制完成的论文

日期标题封面时长视频(播放数)
1/10/25OpenAI Sora<br />(包含Movie Gen和HunyuanVideo)<img src="imgs/sora.jpg" width="200px"/>1:04:18bilibili<br />
9/04/24Llama 3.1论文精读 · 5. 模型训练过程<img src="imgs/llama3-process.jpg" width="200px"/>10:41bilibili<br />
8/28/24Llama 3.1论文精读 · 4. 训练infra<img src="imgs/llama3-training-infra.webp" width="200px"/>25:04bilibili<br />
8/13/24Llama 3.1论文精读 · 3. 模型<img src="imgs/llama3-model.webp" width="200px"/>26:14bilibili<br />
8/05/24Llama 3.1论文精读 · 2. 预训练数据<img src="imgs/llama3-pretrain-data.jpg" width="200px"/>23:37bilibili
7/31/24Llama 3.1论文精读 · 1. 导言<img src="imgs/llama3-intro.jpg" width="200px"/>18:53bilibili<br />
3/30/23GPT-4<img src="imgs/gpt4.jpg" width="200px"/>1:20:38bilibili<br />
3/23/23大模型时代下做科研的四个思路<img src="imgs/limited-resources.jpg" width="200px"/>1:06:29bilibili<br />
3/10/23Anthropic LLM<img src="imgs/anthropic_lm.jpg" width="200px"/>1:01:51bilibili<br />
1/20/23Helm 全面语言模型评测<img src="imgs/helm.jpg" width="200px"/>1:23:37bilibili<br />
1/11/23多模态论文串讲·下<img src="imgs/multimodal-2.jpg" width="200px"/>1:03:29bilibili <br />
12/29/22Instruct GPT<img src="imgs/instruct-gpt.jpg" width="200px"/>1:07:10bilibili <br />
12/19/22Neural Corpus Indexer 文档检索<img src="imgs/nci.jpg" width="200px"/>55:47bilibili <br />
12/12/22多模态论文串讲·上<img src="imgs/multimodal-1.jpg" width="200px"/>1:12:27bilibili <br />
11/14/22OpenAI Whisper 精读<img src="imgs/whisper.jpg" width="200px"/>1:12:16bilibili <br />
11/07/22在讲 OpenAI Whisper 前先做了一个剪视频小工具<img src="imgs/autocut.jpg" width="200px"/>23:39bilibili <br />
10/23/22Chain of Thought 论文、代码和资源<img src="imgs/cot.jpg" width="200px"/>33:21bilibili<br />
9/17/22CLIP 改进工作串讲(下)<img src="imgs/clipx-part2.jpg" width="200px"/>1:04:26bilibili<br />
9/2/22CLIP 改进工作串讲(上)<img src="imgs/clipx-part1.jpg" width="200px"/>1:14:43bilibili<br />
7/29/22ViLT 论文精读<img src="imgs/vilt.jpg" width="200px"/>1:03:26bilibili<br />
7/22/22理由、论据和担保【研究的艺术·四】<img src="imgs/craft_research_p4.jpg" width="200px"/>44:14bilibili
7/15/22如何讲好故事、故事里的论点【研究的艺术·三】<img src="imgs/craft_research_p3.jpg" width="200px"/>43:56bilibili
7/8/22DALL·E 2 逐段精读<img src="imgs/dalle2.jpg" width="200px"/>1:27:54bilibili<br />
7/1/22明白问题的重要性【研究的艺术·二】<img src="imgs/craft_research_p2.jpg" width="200px"/>1:03:40bilibili
6/24/22跟读者建立联系【研究的艺术·一】<img src="imgs/craft_research_p1.jpg" width="200px"/>45:01bilibili
6/17/22Zero 逐段精读<img src="imgs/zero.jpg" width="200px"/>52:21bilibili
6/10/22DETR 逐段精读<img src="imgs/detr.jpg" width="200px"/>54:22bilibili
6/3/22Megatron LM 逐段精读<img src="imgs/megatron_lm.jpg" width="200px"/>56:07bilibili
5/27/22GPipe 逐段精读<img src="imgs/gpipe.jpg" width="200px"/>58:47bilibili <br />
5/5/22Pathways 逐段精读<img src="imgs/pathways.jpg" width="200px"/>1:02:13bilibili <br />
4/28/22视频理解论文串讲(下)<img src="imgs/video-survey-p2.jpg" width="200px"/>1:08:32bilibili <br />
4/21/22参数服务器(Parameter Server) 逐段精读<img src="imgs/ps.jpg" width="200px"/>1:37:40bilibili <br />
4/14/22视频理解论文串讲(上)<img src="imgs/video-survey-p1.jpg" width="200px"/>51:15bilibili <br />
3/31/22I3D 论文精读<img src="imgs/i3d.jpg" width="200px"/>52:31bilibili <br />
3/24/22斯坦福 2022 年 AI 指数报告 精读<img src="imgs/ai_index_22.jpg" width="200px"/>1:19:56bilibili <br />
3/17/22AlphaCode 论文精读<img src="imgs/alphacode.jpg" width="200px"/>44:00bilibili <br />
3/10/22OpenAI Codex 论文精读<img src="imgs/codex.jpg" width="200px"/>47:58bilibili <br />zhihu<br />
3/3/22GPT, GPT-2, GPT-3 精读<img src="imgs/gpt3.jpg" width="200px"/>1:29:58bilibili<br />
2/24/22Two-Stream 逐段精读<img src="imgs/twostream.jpg" width="200px"/>52:57bilibili<br />
2/10/22CLIP 逐段精读<img src="imgs/clip.jpg" width="200px"/>1:38:25bilibili<br />zhihu <br />
2/6/22你(被)吐槽过论文不够 novel 吗?<img src="imgs/novelty.jpg" width="200px"/>14:11bilibili <br />zhihu
1/23/22AlphaFold 2 精读<img src="imgs/alphafold_2.jpg" width="200px"/>1:15:28bilibili <br />zhihu <br />
1/18/22如何判断(你自己的)研究工作的价值<img src="imgs/research_value.jpg" width="200px"/>9:59bilibili <br />zhihu
1/15/22Swin Transformer 精读<img src="imgs/swin_transformer.jpg" width="200px"/>1:00:21bilibili <br />zhihu <br />
1/7/22指导数学直觉<img src="imgs/math_conj.jpg" width="200px"/>52:51bilibili <br />zhihu <br />
1/5/22AlphaFold 2 预告<img src="imgs/alphafold_2_preview.jpg" width="200px"/>03:28bilibili
12/20/21对比学习论文综述<img src="imgs/contrastive.jpg" width="200px"/>1:32:01bilibili <br />zhihu <br />
12/15/21MoCo 逐段精读<img src="imgs/mocov1.jpg" width="200px"/>1:24:11bilibili <br />zhihu <br />
12/9/21如何找研究想法 1<img src="imgs/mae_idea.jpg" width="200px"/>5:34bilibili
12/8/21MAE 逐段精读<img src="imgs/mae.jpg" width="200px"/>47:04bilibili <br />zhihu <br />
11/29/21ViT 逐段精读<img src="imgs/vit.jpg" width="200px"/>1:11:30bilibili <br />zhihu <br />
11/18/21BERT 逐段精读<img src="imgs/bert.jpg" width="200px"/>45:49bilibili <br />zhihu <br />
11/9/21GAN 逐段精读<img src="imgs/gan.jpg" width="200px"/>46:16bilibili <br />zhihu <br />
11/3/21零基础多图详解 图神经网络(GNN/GCN)<img src="imgs/gnn.jpg" width="200px"/>1:06:19bilibili <br />zhihu <br />
10/27/21Transformer 逐段精读<br> (视频中提到的文献 1)<img src="imgs/transformer.jpg" width="200px"/>1:27:05bilibili <br />zhihu <br />
10/22/21ResNet 论文逐段精读<img src="imgs/resnet-2.jpg" width="200px"/>53:46bilibili <br />zhihu <br />
10/21/21撑起计算机视觉半边天的 ResNet<img src="imgs/resnet-1.jpg" width="200px"/>11:50bilibili <br />zhihu <br />
10/15/21AlexNet 论文逐段精读<img src="imgs/alexnet-2.jpg" width="200px"/>55:21bilibili <br />zhihu <br />
10/14/219年后重读深度学习奠基作之一:AlexNet<img src="imgs/alexnet-1.jpg" width="200px"/>19:59bilibili <br />zhihu <br />
10/06/21如何读论文<img src="imgs/read-paper.jpg" width="200px"/>06:39bilibili <br />zhihu <br />

所有论文

包括已经录制完成和之后将要介绍的论文。选取的原则是10年内深度学习里有影响力文章(必读文章),或者近期比较有意思的文章。当然这十年里重要的工作太多了,不可能一一过一遍。在选取的时候我会偏向一些之前 直播课 中没讲到过的。 欢迎大家在 讨论区 里提供建(点)议(歌)。

总论文数 67,录制完成数 32

(这里引用采用的是 semanticscholar,是因为它提供 API 可以自动获取,不用手动更新。)

计算机视觉 - CNN

已录制年份名字简介引用
2012AlexNet深度学习热潮的奠基作citation
2014VGG使用 3x3 卷积构造更深的网络citation
2014GoogleNet使用并行架构构造更深的网络citation
2015ResNet构建深层网络都要有的残差连接。citation
2017MobileNet适合终端设备的小CNNcitation
2019EfficientNet通过架构搜索得到的CNNcitation
2021Non-deep networks让不深的网络也能在ImageNet刷到SOTAcitation

计算机视觉 - Transformer

已录制年份名字简介引用
2020ViTTransformer杀入CV界citation
2021Swin Transformer多层次的Vision Transformercitation
2021MLP-Mixer使用MLP替换self-attentioncitation
2021MAEBERT的CV版citation

生成模型

已录制年份名字简介引用
2014GAN生成模型的开创工作citation
2015DCGAN使用CNN的GANcitation
2016pix2pixcitation
2016SRGAN图片超分辨率citation
2017WGAN训练更加容易citation
2017CycleGANcitation
2018StyleGANcitation
2019StyleGAN2citation
2020DDPMDiffusion Modelscitation
2021Improved DDPM改进的 DDPMcitation
2021Guided Diffusion Models号称超越 GANcitation
2021StyleGAN3citation
2022DALL.E 2CLIP + Diffusion models,文本生成图像新高度citation
2024Sora开启视频生成热潮
2024Movie Gen精确的文本指导视频编辑、个性化视频生成
2025HunyuanVideo开源视频生成框架

计算机视觉 - Object Detection

已录制年份名字简介引用
2014R-CNNTwo-stagecitation
2015Fast R-CNNcitation
2015Faster R-CNNcitation
2016SSDSingle stagecitation
2016YOLOcitation
2017Mask R-CNNcitation
2017YOLOv2citation
2018YOLOv3citation
2019CenterNetAnchor freecitation
2020DETRTransformercitation

<a name="contrastive_learning"></a>

计算机视觉 - 对比学习

已录制年份名字简介引用
2018InstDisc提出实例判别和memory bank做对比学习citation
2018CPC对比预测编码,图像语音文本强化学习全都能做citation
2019InvaSpread一个编码器的端到端对比学习citation
2019CMC多视角下的对比学习citation
2019MoCov1无监督训练效果也很好citation
2020SimCLRv1简单的对比学习 (数据增强 + MLP head + 大batch训练久)citation
2020MoCov2MoCov1 + improvements from SimCLRv1citation
2020SimCLRv2大的自监督预训练模型很适合做半监督学习citation
2020BYOL不需要负样本的对比学习citation
2020SWaV聚类对比学习citation
2020SimSiam化繁为简的孪生表征学习citation
2021MoCov3如何更稳定的自监督训练ViTcitation
2021DINOtransformer加自监督在视觉也很香citation

计算机视觉 - 视频理解

已录制年份名字简介引用
2014DeepVideo提出sports1M数据集,用深度学习做视频理解citation
2014Two-stream引入光流做时序建模,神经网络首次超越手工特征citation
2014C3D比较深的3D-CNN做视频理解citation
2015Beyond-short-snippets尝试使用LSTMcitation
2016Convolutional fusion做early fusion来加强时空间建模citation
2016TSN超级有效的视频分段建模,bag of tricks in videocitation
2017I3D提出Kinetics数据集,膨胀2D网络到3D,开启3D-CNN时代citation
2017R2+1D拆分3D卷积核,使3D网络容易优化citation
2017Non-local引入自注意力做视觉问题citation
2018SlowFast快慢两支提升效率citation
2021TimeSformer视频中第一个引入transformer,开启video transformer时代citation

多模态学习

已录制年份名字简介引用
2021CLIP图片和文本之间的对比学习citation
2021ViLT第一个摆脱了目标检测的视觉文本模型citation
2021ViLDCLIP蒸馏帮助开集目标检测citation
2021GLIP联合目标检测和文本定位citation
2021CLIP4Clip拿CLIP直接做视频文本retrievalcitation
2021ActionCLIP用多模态对比学习有监督的做视频动作分类citation
2021PointCLIP3D变2D,巧妙利用CLIP做点云citation
2022LSeg有监督的开集分割citation
2022GroupViT只用图像文本对也能无监督做分割citation
2022CLIPassoCLIP跨界生成简笔画citation
2022DepthCLIP用文本跨界估计深度citation

自然语言处理 - Transformer

已录制年份名字简介引用
2017Transformer继MLP、CNN、RNN后的第四大类架构citation
2018GPT使用 Transformer 解码器来做预训练citation
2018BERTTransformer一统NLP的开始citation
2019GPT-2更大的 GPT 模型,朝着zero-shot learning迈了一大步citation
2020GPT-3100倍更大的 GPT-2,few-shot learning效果显著citation
2024Llama 3.1强大的Meta开源模型 - 动态扩展,多模态学习,零样本学习,高效计算citation

系统

已录制年份名字简介引用
2014参数服务器支持千亿参数的传统机器学习模型citation
2018GPipe流水线(Pipeline)并行citation
2019Megatron-LM张量(Tensor)并行citation
2019Zero参数分片citation
2022Pathways将Jax拓展到上千TPU核上citation

图神经网络

已录制年份名字简介引用
2021图神经网络介绍GNN的可视化介绍citation

优化算法

已录制年份名字简介引用
2014Adam深度学习里最常用的优化算法之一citation
2016为什么超大的模型泛化性不错citation
2017为什么Momentum有效Distill的可视化介绍citation

新领域应用

已录制年份名字简介引用
2016AlphaGo强化学习出圈citation
2020AlphaFold赢得比赛的的蛋白质3D结构预测citation
2021AlphaFold 2原子级别精度的蛋白质3D结构预测citation
2021Codex使用注释生成代码citation
2021指导数学直觉分析不同数学物体之前的联系来帮助发现新定理citation
2022AlphaCode媲美一般程序员的编程解题水平citation

Footnotes

  1. 1 斯坦福100+作者的200+页综述,2 对LayerNorm的新研究,3 对Attention在Transformer里面作用的研究