back to home

datawhalechina / so-large-lm

大模型基础: 一文了解大模型基础知识

6,767 stars
569 forks
24 issues

AI Architecture Analysis

This repository is indexed by RepoMind. By analyzing datawhalechina/so-large-lm in our AI interface, you can instantly generate complete architecture diagrams, visualize control flows, and perform automated security audits across the entire codebase.

Our Agentic Context Augmented Generation (Agentic CAG) engine loads full source files into context, avoiding the fragmentation of traditional RAG systems. Ask questions about the architecture, dependencies, or specific features to see it in action.

Embed this Badge

Showcase RepoMind's analysis directly in your repository's README.

[![Analyzed by RepoMind](https://img.shields.io/badge/Analyzed%20by-RepoMind-4F46E5?style=for-the-badge)](https://repomind-ai.vercel.app/repo/datawhalechina/so-large-lm)
Preview:Analyzed by RepoMind

Repository Summary (README)

Preview
<div align="center"> <img src="./logo.png" width="1000px" alt="Project Logo" />

🤖 大模型基础 (So-Large-LM)

从理论到实战,全面构建大模型知识体系

Datawhale License PRs Welcome Stargazers

<p align="center"> <a href="#-项目简介">项目简介</a> • <a href="#-精选资源">精选资源</a> • <a href="#-课程大纲">课程大纲</a> • <a href="#-学习路径">学习路径</a> • <a href="#-贡献与致谢">贡献与致谢</a> </p> </div>

🚀 精选资源 (最新更新)

💡 核心推荐:配合视频与文档学习,效果更佳。

类型内容链接
📺 视频进击的AI:大模型技术全景 (第一节)点击观看
📺 视频Llama开源家族:从Llama-1到Llama-3点击观看
📚 文档Llama开源家族技术详解点击阅读

📖 项目简介

本项目致力于打造一个开源、系统、深入的大规模预训练语言模型(LLM)教程。

项目以 斯坦福 CS324李宏毅生成式AI课程 为理论基石,结合开源社区的最新实践与前沿动态,涵盖从数据准备、模型构建、训练策略模型评估、安全伦理的全链路知识。

🎯 适用人群

  • 🎓 学术/从业者:希望深入了解 LLM 最新动态与技术细节的研究人员。
  • 🏢 行业探索者:对 LLM 在医疗、金融、教育等领域应用感兴趣的专业人士。
  • 🛠️ 开源贡献者:不仅想学习,更想参与到 LLM 开源建设中的开发者。
  • ⚖️ 相关从业者:关注 AI 法律、伦理、版权及社会影响的跨领域专家。

🗺️ 学习路径

为了帮助初学者更高效地入门,Datawhale 构建了完整的 LLM 学习矩阵:

  1. 理论基石(本项目)so-large-lm —— 深入理解原理、架构与算法。
  2. 应用开发llm-universe —— 快速入门 LLM 开发,搭建 Demo。
  3. 模型实战self-llm —— 基于 AutoDL 的开源模型部署与微调指南。

📚 课程大纲

第一部分:基础与架构

章节内容亮点链接
01. 引言项目背景、GPT-3 崛起、LLM 发展简史阅读
02. 大模型的能力迁移学习、In-context Learning、性能评估分析阅读
03. 模型架构Transformer 深度解析、位置编码、注意力机制阅读
04. 新的架构方向混合专家模型 (MoE)、基于检索的模型 (RAG基础)阅读

第二部分:数据与训练

章节内容亮点链接
05. 数据工程The Pile 数据集、数据清洗、分词策略 (Tokenization)阅读
06. 模型训练目标函数设计、优化算法选择阅读
07. 适配与微调Adaptation 必要性、PEFT (高效微调)、Probing阅读
08. 分布式训练数据并行、模型并行、流水线并行、混合策略阅读

第三部分:安全、伦理与前沿

章节内容亮点链接
09/10. 有害性分析社会偏见、有毒信息检测、虚假信息 (Hallucination)上篇 / 下篇
11. 法律与伦理版权法挑战、合理使用、司法案例汇总阅读
12. 环境影响碳排放估算、绿色 AI阅读
13. 智能体 (Agent)Agent 组件详解、挑战与机遇阅读
14. Llama 家族Llama 1-3 进化史、架构对比、生态复盘阅读

✨ 核心贡献者

感谢所有为本项目付出心血的贡献者!

<table border="0"> <tr> <td align="center"><a href="https://scholar.google.com/citations?user=tcb9VT8AAAAJ&hl=zh-CN"><img src="https://github.com/datawhalechina.png" width="80px;" alt=""/><br /><sub><b>陈安东</b></sub></a><br />(负责人/内容构建)</td> <td align="center"><a href="https://github.com/zhangfanTJU"><img src="https://avatars.githubusercontent.com/u/108520626?v=4" width="80px;" alt=""/><br /><sub><b>张帆</b></sub></a><br />(内容构建)</td> <td align="center"><a href="https://github.com/mlw67"><img src="https://avatars.githubusercontent.com/u/22756847?v=4" width="80px;" alt=""/><br /><sub><b>王茂霖</b></sub></a><br />(Issues维护)</td> </tr> </table>

项目负责人: 陈安东 (ands691119@gmail.com)


📈 关注度趋势

Stargazers over time


<div align="center"> <b>🌟 如果这个项目对你有帮助,请给我们一个 Star!</b> </div>