人工智能全景知识图谱 (完整版)

规模、前景、依赖关系、学习路线、生态对比与技术细节 (2025-2026)

一、层级依赖关系
Layer 1
AI Infra
算力/数据/框架
Layer 2
核心算法
ML/DL/预训练
Layer 3
AI 开发
训练/微调/评测
Layer 4
AI 应用开发
Agent/RAG/Prompt
Layer 5
AI 应用
编程/AIGC/行业
上层依赖的下层关系说明
核心算法基础设施没有 GPU 集群和数据,算法只是论文上的公式
AI 开发核心算法微调、蒸馏、评测都建立在已有模型架构之上
AI 应用开发AI 开发Agent/RAG 需要可调用的模型 API 作为引擎
AI 应用AI 应用开发终端产品是框架 + Prompt + 工程的组合
预训练数据标注 + 算力GPT-4 级别训练一次花费 $100M+,需要万卡集群
注意力机制深度学习基础Attention → Transformer → GPT/BERT → 所有大模型
RLHF/DPO强化学习 + 数据标注对齐 = RL 算法 (PPO) + 人类偏好标注数据
RAGEmbedding + 向量数据库检索增强依赖语义表示和高效近似搜索
Agent大模型 + 工具调用Agent = LLM 推理 + Function Calling + 记忆
二、核心技术细节展开
2.1 注意力机制 (Attention) — 一切大模型的基石

核心思想

让模型在处理序列时,动态地"关注"输入中最相关的部分,而不是平等对待所有位置。

数学本质

Attention(Q,K,V) = softmax(QK^T / sqrt(d_k)) * V

Q(查询)、K(键)、V(值) 三个矩阵,通过点积计算相关性权重,再加权求和。

演进路线

Bahdanau Attention (2014) → Self-Attention (2017) → Multi-Head Attention → Flash Attention (2022) → GQA/MQA (2023)

为什么重要

Transformer 的核心就是 Self-Attention。没有它就没有 GPT、BERT、所有大模型。理解 Attention 等于理解了大模型 50% 的原理。

2.2 Transformer 架构

结构

Encoder-Decoder 结构 (原始) → Decoder-Only (GPT系列) / Encoder-Only (BERT)

每层 = Multi-Head Attention + Feed-Forward Network + LayerNorm + Residual Connection

关键创新

位置编码 (Positional Encoding): 正弦编码 → RoPE (旋转位置编码) → ALiBi

并行计算: 不像 RNN 必须顺序处理,Transformer 可以并行处理整个序列

规模演进

GPT-1 (117M) → GPT-2 (1.5B) → GPT-3 (175B) → GPT-4 (~1.8T MoE) → GPT-5 (?)

2.3 预训练 (Pre-training)

什么是预训练

用海量无标注文本,让模型学习语言的统计规律。本质是"压缩互联网"。

两种范式

自回归 (GPT): 预测下一个 token。训练目标: P(x_t | x_1, ..., x_{t-1})

掩码 (BERT): 随机遮住 15% 的 token,预测被遮住的。训练目标: P(x_mask | context)

训练成本

GPT-4 级别: ~25000 张 A100,训练 3-4 个月,电费+算力 $100M+

Llama 3 70B: ~6000 张 H100,训练 15T tokens

Scaling Laws

Chinchilla 定律: 最优训练 tokens 数 ≈ 20 × 参数量。模型越大,需要的数据越多。

但 2024 后发现: 过度训练 (over-training) 小模型也能获得很好效果 (Llama 3 路线)。

2.4 数据标注与数据工程

预训练数据

来源: Common Crawl (网页) + 书籍 + 代码 (GitHub) + 学术论文 + 百科

处理流程: 爬取 → 去重 (MinHash) → 质量过滤 (perplexity filter) → 去毒 (有害内容过滤) → 混合比例调配

SFT 数据 (监督微调)

人工编写高质量 instruction-response 对,通常 10K-100K 条。质量 > 数量。

RLHF 数据 (偏好标注)

标注员对模型的多个回答进行排序/打分,生成偏好对 (chosen, rejected)。

合成数据趋势

用强模型生成训练数据给弱模型 (Self-Instruct, Evol-Instruct)。合成数据占比在不少场景中持续上升,但具体比例会因行业、任务和数据源差异而明显不同。

2.5 对齐技术 (Alignment)

为什么需要对齐

预训练后的模型只会"续写文本",不会"听从指令"。对齐让模型变得有用、安全、诚实。

三步走 (InstructGPT 范式)

1. SFT (监督微调): 用人写的示范数据微调,让模型学会对话格式

2. Reward Model: 训练一个打分模型,学习人类偏好

3. PPO (强化学习): 用 Reward Model 的分数作为奖励信号,优化策略模型

DPO (Direct Preference Optimization)

2023 年提出,跳过 Reward Model,直接从偏好对中学习。更简单、更稳定。

公式本质: 把 RLHF 的目标函数重写为一个分类损失,不需要在线采样。

Constitutional AI (Anthropic)

用一组"宪法原则"让模型自我批评和修正,减少对人类标注的依赖。

2.6 推理优化

量化 (Quantization)

FP32 → FP16 → INT8 → INT4。每降一级,显存减半,速度提升,精度略降。

主流方案: GPTQ (训练后量化) / AWQ (激活感知) / GGUF (llama.cpp 格式)

KV Cache

缓存已计算的 Key/Value,避免重复计算。是自回归推理的核心优化。

问题: 长序列时 KV Cache 占用巨大显存 → PagedAttention (vLLM) 解决碎片化

Speculative Decoding

用小模型快速生成草稿,大模型验证。验证比生成快,整体加速 2-3x。

Flash Attention

通过 IO 感知的分块计算,减少 HBM 访问次数。训练和推理都能加速 2-4x。

2.7 Agent 技术栈

Agent = LLM + 工具 + 记忆 + 规划

推理框架: ReAct (Reasoning + Acting) / CoT (Chain of Thought) / Tree of Thought

工具调用: Function Calling (OpenAI) / Tool Use (Claude) / MCP 协议

记忆系统: 短期 (对话上下文) + 长期 (向量数据库) + 工作记忆 (scratchpad)

规划: 任务分解 → 子任务执行 → 反思修正 → 最终输出

多 Agent 协作

模式: 主从式 (Orchestrator + Workers) / 辩论式 / 流水线式

框架: AutoGen / CrewAI / LangGraph / Claude Agent SDK

2.8 RAG 技术栈

基本流程

文档 → 分块 (Chunking) → Embedding → 存入向量数据库 → 用户查询 → 检索 Top-K → 拼入 Prompt → LLM 生成

关键技术点

Chunking: 固定长度 / 语义分割 / 递归分割。chunk 太大丢精度,太小丢上下文。

Embedding: text-embedding-3-large / BGE / GTE / Jina。维度 768-3072。

检索: 纯向量 / BM25 关键词 / 混合检索 (Hybrid) / 重排序 (Reranker)

高级: GraphRAG (知识图谱增强) / Self-RAG (模型自判断是否需要检索) / Agentic RAG

三、AI 发展关键时间线
2012
AlexNet 赢得 ImageNet,深度学习爆发。GPU 训练成为主流。
2014
GAN 提出 (Goodfellow),Attention 机制首次用于 NLP (Bahdanau)。
2017
"Attention Is All You Need" — Transformer 诞生。改变一切的论文。
2018
BERT + GPT-1 发布。预训练+微调范式确立。NLP 进入大模型时代。
2020
GPT-3 (175B) 发布。Few-shot 能力震惊业界。Scaling Laws 被验证。
2021
DALL-E / Codex / AlphaFold2。AI 开始跨模态、跨领域。
2022.11
ChatGPT 发布。数月内达到亿级用户规模,AI 从学术走向大众。RLHF / 指令对齐路线被广泛采用。
2023
GPT-4 / Claude 2 / Llama 2 开源。百模大战。RAG 和 Agent 概念爆发。
2024
多模态统一 (GPT-4o)。Agent 概念热度大涨。Sora 文生视频出圈。开源模型在部分任务上继续逼近一线闭源能力。
2025-2026
推理模型、AI 编程工具和工具调用协议快速演进。编码 Agent、长上下文和多模态能力持续升级,但生态仍处于高速变化期。
2026 前后 (判断)
生产级 Agent 会在更多垂直场景落地,端侧模型继续扩张,AI 立法和数据治理持续推进,合成数据的重要性进一步提升。
四、中国 vs 海外生态对比

中国生态

  • 算力: A100/H100 禁令,依赖华为昇腾 910B、寒武纪等国产芯片。算力缺口约 30-40%
  • 大模型: 通义千问、DeepSeek、Kimi (月之暗面)、智谱 GLM、百川、MiniMax
  • 开源: DeepSeek、Qwen 等模型在若干中文与特定任务场景中快速逼近一线闭源模型,开源生态活跃
  • 应用偏重: ToB 企业服务、政务、金融风控、电商客服。变现压力大
  • 数据: 中文高质量数据相对稀缺,合成数据依赖更重
  • 监管: 生成式 AI 备案制、内容审核要求严格
  • 优势: 应用场景丰富、工程落地快、人才性价比高
  • 劣势: 基础研究弱于美国、算力受限、顶尖人才外流

海外 (美国为主) 生态

  • 算力: NVIDIA 仍占主导地位。高端 GPU 长期紧张,云厂商也在持续推进自研芯片 (Google TPU, Amazon Trainium)
  • 大模型: OpenAI GPT / Anthropic Claude / Google Gemini / Meta Llama / xAI Grok
  • 开源: Meta Llama 系列引领开源,Mistral (欧洲) 紧随
  • 应用偏重: 开发者工具、AI 编程、企业 SaaS、科研。ToC 产品强
  • 数据: 英文互联网数据充裕,但也面临版权诉讼 (NYT vs OpenAI)
  • 监管: 相对宽松,EU AI Act 影响欧洲市场,美国以行政令为主
  • 优势: 基础研究领先、算力充足、资本充裕、人才密度高
  • 劣势: 成本极高、监管不确定性、过度依赖 NVIDIA
维度中国海外差距趋势
基础模型能力在部分任务中差距缩小整体仍领先在若干中文和工程场景中继续缩小
开源生态Qwen/DeepSeek 活跃Llama/Mistral 主导接近持平
应用落地速度快,场景多质量高,付费意愿强各有优势
AI Infra受限于芯片禁令NVIDIA 生态完整差距较大且短期难缩小
人才工程人才充裕,研究人才不足顶尖研究人才集中中国在追赶
资本2024 后趋于理性持续大额投入 ($100B+/年)差距在拉大
五、泡沫与风险分析
过热/有泡沫风险:

Agent 概念 — 2024-2025 融资火热,但真正能稳定运行的生产级 Agent 极少。多数还是 Demo 阶段。

AI 应用层创业 — 大量"套壳"产品,护城河薄弱,模型升级一次就可能被淘汰。

数字人/虚拟主播 — 技术不成熟,商业模式未验证,大量公司已倒闭。

有热度但有实质:

RAG — 企业刚需,但很多团队低估了工程复杂度 (检索质量、幻觉控制)。

AI 编程 — 确实提效 30-50%,但"替代程序员"的叙事过度。工具会成熟,人不会消失。

AIGC 视频 — Sora/Kling 惊艳,但离稳定的大规模生产仍有距离,具体成熟节奏取决于成本、版权和工作流整合。

长期确定性强 (安全区):

AI Infra / 推理优化 — 只要模型在用,就需要更快更便宜的推理。供不应求。

大模型预训练 — 头部效应明显,但确定性最高。模型能力是一切的基础。

传统 ML (推荐/搜索/广告) — 不性感但印钞机。互联网公司核心收入来源。

AI for Science — 学术价值确定,商业化慢但天花板极高。

具身智能/机器人 — 长周期但确定性高,物理世界的 AI 化是终极方向。

六、学习路线 (5 条主线 + 推荐资源)
A
路线 A: AI 应用开发工程师 (最快上手)
适合: 有编程基础的开发者,想快速进入 AI 行业
Python 基础
API 调用 (OpenAI/Claude)
Prompt Engineering
RAG 系统搭建
Agent 开发
全栈 AI 产品
周期: 2-4 个月
前置: 会写代码即可
薪资: 因城市、公司和是否能独立交付而差异很大
前景: 需求仍强,但纯“调 API”岗位门槛在上升
推荐资源:
  • 入门: OpenAI API 官方文档 / Anthropic Claude API Docs
  • Prompt: Anthropic Prompt Engineering Guide / DAIR.AI Prompt Engineering Guide
  • RAG: LangChain 官方教程 / LlamaIndex 文档 / 动手搭一个知识库问答
  • Agent: Claude Agent SDK / AutoGen 教程 / 自己做一个能调工具的 Agent
  • 项目: 做一个 RAG 客服机器人 → 做一个多 Agent 工作流 → 做一个 AI SaaS 产品
B
路线 B: ML/AI 工程师 (中等深度)
适合: 想深入理解模型、做微调和部署的工程师
数学基础
传统 ML
深度学习 (PyTorch)
Transformer/Attention
微调 (LoRA/SFT)
MLOps/部署
周期: 6-12 个月
前置: 数学 + 编程
薪资: 与数学深度、工程能力和行业场景强相关
前景: 核心岗位,长期稳定
推荐资源:
  • 数学: 线性代数 (3Blue1Brown) / 概率统计 / 凸优化 (Boyd)
  • 传统 ML: 李航《统计学习方法》/ 周志华《机器学习》/ Andrew Ng Coursera
  • 深度学习: 李沐《动手学深度学习》/ CS231n (CV) / CS224n (NLP)
  • Transformer: "Attention Is All You Need" 原论文 / Jay Alammar 图解 Transformer
  • 微调: HuggingFace PEFT 库 / LoRA 原论文 / 用 Llama 做一次完整微调
  • 部署: vLLM 文档 / TensorRT-LLM / Docker + K8s 部署实践
C
路线 C: AI 研究员 / 预训练方向 (最深)
适合: 硕博、想做前沿研究或进大模型团队
数学深度
经典 ML 理论
深度学习理论
预训练 (Scaling Laws)
对齐 (RLHF/DPO)
发论文/开源模型
周期: 2-5 年
前置: 硕士/博士 + 顶会论文
薪资: 上限高,但强依赖机构、成果和研究方向
前景: 天花板最高,竞争最激烈
推荐资源:
  • 数学: 信息论 (Cover & Thomas) / 凸优化 (Boyd) / 随机过程
  • 理论: Goodfellow《Deep Learning》/ CS229 (Stanford ML Theory)
  • 论文: 每周读 3-5 篇 arXiv,跟踪 NeurIPS/ICML/ICLR/ACL
  • 实践: 从零复现 GPT-2 (Karpathy nanoGPT) / 复现一篇顶会论文
  • 预训练: Chinchilla / Llama 技术报告 / MoE 论文 (Switch Transformer)
  • 对齐: InstructGPT / DPO / Constitutional AI 原论文
D
路线 D: AI 产品/行业落地 (非纯技术)
适合: 产品经理、行业专家、想用 AI 改造业务的人
AI 概念理解
Prompt 使用
AI 产品设计
行业场景拆解
数据飞轮设计
AI 商业化
周期: 1-3 个月
前置: 行业经验
薪资: 因行业而异
前景: AI 落地的关键角色
推荐资源:
  • 概念: 吴恩达 "AI For Everyone" (Coursera) / 李开复《AI 未来》
  • 产品: 研究 Notion AI / Perplexity / Cursor 的产品设计
  • 方法论: AI 产品 PMF 验证 / 用户反馈驱动的 Prompt 迭代
  • 实践: 用 Dify/Coze 搭建一个行业 AI 助手,验证商业假设
E
路线 E: AI Infra / 系统工程 (底层硬核)
适合: 系统工程师、想做训练框架/推理优化/芯片的人
C++/CUDA
计算机体系结构
并行/分布式
算子优化
训练框架
推理引擎
周期: 1-3 年
前置: CS 基础 + 系统编程
薪资: 高度依赖系统深度、平台规模和硬件背景
前景: 稀缺人才,供不应求
推荐资源:
  • CUDA: NVIDIA CUDA Programming Guide / "Programming Massively Parallel Processors"
  • 体系结构: CSAPP (深入理解计算机系统) / Patterson "Computer Architecture"
  • 分布式: DeepSpeed 源码 / Megatron-LM 论文 / FSDP 文档
  • 推理: vLLM 源码 / Flash Attention 论文 / TensorRT 文档
  • 实践: 写一个 CUDA kernel / 给开源推理框架提 PR / 做一次模型量化部署
路线选择速查
路线核心技能入门速度天花板稳定性适合谁
A. AI 应用开发 编程 + Prompt + 工程 ★★★★★ ★★★☆☆ ★★★☆☆ 全栈开发者、转型程序员
B. ML 工程师 数学 + PyTorch + 工程 ★★★☆☆ ★★★★☆ ★★★★☆ CS 本科/硕士
C. AI 研究员 数学 + 论文 + 创新 ★☆☆☆☆ ★★★★★ ★★★★★ 博士、前沿突破
D. AI 产品/行业 行业知识 + AI 理解 ★★★★☆ ★★★★☆ ★★★★☆ 产品经理、行业专家
E. AI Infra C++/CUDA + 系统 ★★☆☆☆ ★★★★★ ★★★★★ 系统工程师、芯片背景
选择建议:
- 想尽快转型落地 → A (先做能跑的产品,再补工程深度)
- 想长期稳定 → B (最平衡的选择,进可攻退可守)
- 想做最前沿 → C (需要天赋+耐心+运气)
- 非技术背景 → D (AI 时代最需要的是懂业务的人)
- 想做底层 → E (最稀缺,但学习曲线陡峭)

组合打法: 很多人会走 A+B 组合 (先用 API 做产品,再深入学原理),或 B+E 组合 (既懂模型又懂系统)。纯走一条路线的人反而少。
七、AI 工具链全景

从数据到部署,每个环节的主流工具一览。

7.1 数据层
环节工具说明
数据标注Label Studio [开源] / Labelbox / Scale AI文本/图像/音频标注,支持多人协作
数据清洗Pandas / Spark / dbt结构化数据处理和转换
文本去重MinHash (datasketch) / SimHash大规模文本去重,预训练数据必备
数据质量Cleanlab [开源] / Great Expectations自动检测标注错误和数据异常
合成数据Gretel / 自建 (GPT-4/Claude 生成)生成训练数据,解决数据不足
数据版本管理DVC [开源] / LakeFS像 Git 一样管理数据集版本
7.2 训练层
环节工具说明
深度学习框架PyTorch [主流] / JAX [Google] / TensorFlow [遗留]PyTorch 仍是研究和工业训练中的主导框架
分布式训练DeepSpeed / Megatron-LM / FSDP多卡/多机训练必备
微调框架HuggingFace PEFT / LLaMA-Factory / AxolotlLoRA/QLoRA/全参微调一站式
实验管理Weights & Biases / MLflow [开源] / Neptune记录超参、loss 曲线、模型版本
超参搜索Optuna [开源] / Ray Tune自动化超参数优化
GPU 租用RunPod / Lambda / AutoDL / 阿里云 PAI按需租用 GPU 算力
7.3 评测层
环节工具说明
通用评测lm-evaluation-harness / HELM (Stanford)标准化 benchmark 评测
中文评测C-Eval / CMMLU / SuperCLUE中文能力专项评测
对话评测MT-Bench / Chatbot Arena (LMSYS)多轮对话和人类偏好评测
安全评测HarmBench / TrustLLM检测有害输出和越狱漏洞
RAG 评测RAGAS [开源] / TruLens检索质量、答案忠实度
代码评测HumanEval / MBPP / SWE-bench代码生成和工程能力评测
7.4 推理与部署层
环节工具说明
推理引擎vLLM [主流] / TensorRT-LLM / llama.cpp [端侧]高吞吐 LLM 推理服务
量化工具GPTQ / AWQ / llama.cpp (GGUF) / bitsandbytes模型压缩,降低显存需求
模型托管HuggingFace Hub / ModelScope (国内) / Ollama (本地)模型分发和版本管理
API 网关LiteLLM [开源] / OpenRouter / One API统一多模型 API 接口
容器化Docker + K8s / KServe / BentoML模型服务容器化部署
监控Prometheus + Grafana / LangSmith / Helicone延迟、吞吐、成本监控
7.5 应用开发层
环节工具说明
应用框架LangChain / LlamaIndex / HaystackRAG/Agent 应用开发框架
Agent 框架Claude Agent SDK / AutoGen / CrewAI / LangGraph多 Agent 编排和工具调用
低代码平台Dify [开源] / Coze (字节) / FastGPT拖拽式搭建 AI 应用
向量数据库Milvus / Pinecone / Qdrant / Weaviate / Chroma存储和检索 Embedding 向量
Prompt 管理LangSmith / PromptLayer / 自建Prompt 版本、A/B 测试
前端 SDKVercel AI SDK / SSE 协议流式输出和前端集成
协议标准MCP (Model Context Protocol) / Function Calling推动工具调用和上下文传递统一化的开放协议与接口模式
八、常见踩坑与误区
8.1 学习路径误区
误区: "先把数学学完再写代码"

现实: 你会在数学阶段放弃。正确做法是边做边学,遇到不懂的公式再回头补。

建议: 先跑通一个完整项目 (哪怕是调 API),建立信心和全局观,再深入原理。

误区: "学 AI 必须从传统 ML 开始"

现实: 取决于你的目标。走路线 A (应用开发) 可以直接从 API 和 Prompt 开始。

建议: 传统 ML 是路线 B/C 的基础,但不是所有人的必经之路。按需学习。

误区: "看完所有教程再动手"

现实: AI 领域变化太快,你看完教程时技术已经迭代了。

建议: 20% 学习 + 80% 实践。做项目 > 看视频 > 看书。

误区: "收藏 = 学会"

现实: 收藏了 100 篇论文和 50 个教程,一个都没看完。

建议: 每次只聚焦一个主题,做完一个项目再开始下一个。深度 > 广度。

8.2 技术实践踩坑
坑: RAG "调了 API 就完事了"
  • Chunking 策略不对 → 检索到的内容不相关
  • 没做 Reranker → Top-K 结果质量差
  • 没处理多轮对话 → 上下文丢失
  • 没做评测 → 不知道效果好不好

正确做法: 先建评测集,再迭代 Chunking/Embedding/检索策略。

坑: Agent "Demo 很酷,生产就崩"
  • LLM 输出不稳定 → 工具调用参数格式错误
  • 没有错误恢复 → 一步失败整个流程挂掉
  • 无限循环 → 模型陷入重复动作
  • 成本失控 → 一个请求调了 50 次 API

正确做法: 加超时、重试、最大步数限制、成本预算。先做确定性流程,再加灵活性。

坑: 微调 "数据越多越好"
  • 低质量数据 → 模型学到噪声,效果反而变差
  • 数据分布偏斜 → 模型只会回答某类问题
  • 过拟合 → 训练集好,测试集崩

正确做法: 1000 条高质量 > 10 万条低质量。先清洗,再训练。

坑: Prompt "写得越长越好"
  • 过长 System Prompt → 模型注意力分散
  • 矛盾的指令 → 模型不知道听哪个
  • 没有结构化 → 模型理解困难

正确做法: 简洁、结构化、有优先级。用 XML/Markdown 分段。测试不同版本。

8.3 职业发展踩坑
坑: "只会调 API,没有护城河"

只会调 API 已越来越接近基本功,很难单独构成长期壁垒。

破解: 往深走 (理解原理) 或往宽走 (懂业务)。纯调用会被低代码替代。

坑: "追热点,什么火学什么"

今天 Agent 火学 Agent,明天多模态火学多模态。结果什么都不精。

破解: 选一条主线深耕。T 型人才 (一专多能) > 全面平庸。

坑: "闷头学,不做项目不写博客"

AI 行业看作品集和实际产出,不看你学了多少课程。

破解: 每学一个技术就做一个小项目放 GitHub。写博客建立个人品牌。

坑: "AI 会替代程序员,不用学编程了"

AI 替代的是重复性编码,不是系统设计和架构决策。

破解: 学会用 AI 工具提效 (Claude Code/Cursor),而不是被它替代。人+AI > 纯 AI。

九、信息源与社区推荐

AI 领域变化极快,跟对信息源比埋头学习更重要。

9.1 必关注 (每天看)
来源类型价值
Twitter/X AI 圈社交媒体最快一手信息。推荐: @kaboroevich @_akhaliq @swyx
Hacker News技术社区高质量技术讨论,AI 帖子每天 10+
arXiv (cs.CL/cs.AI/cs.LG)论文预印本所有前沿研究第一时间发布
Papers With Code论文+代码论文配套实现,方便复现
9.2 高质量周报/Newsletter
名称频率内容
The Batch (Andrew Ng)周刊AI 行业新闻精选,快速了解全局
AI News (Swyx)周刊深度技术分析,偏工程实践
Ahead of AI (Sebastian Raschka)月刊深度论文解读,学术向
机器之心 / 量子位日更中文 AI 新闻,覆盖国内外
AI 前线 (InfoQ)周更偏工程落地,适合开发者
9.3 深度学习社区
社区特点适合谁
HuggingFace Community模型/数据集/Space 生态所有 AI 开发者
r/MachineLearning论文讨论、行业八卦研究者、ML 工程师
r/LocalLLaMA本地部署、量化、开源模型想跑本地模型的人
LangChain DiscordRAG/Agent 开发讨论应用开发者
知乎 AI 话题中文深度技术文章中文用户
即刻 AI 圈国内 AI 创业者社区产品/创业方向
9.4 播客与视频
名称语言风格
Lex Fridman Podcast英文深度访谈 AI 大佬 (Karpathy, Altman, Hinton)
Latent Space Podcast英文AI 工程实践,偏技术深度
3Blue1Brown英文数学可视化,神经网络系列经典
Andrej Karpathy YouTube英文从零实现 GPT,最好的动手教程
李沐 B站中文论文精读 + 动手学深度学习
9.5 信息获取策略
每天 (15 分钟): 刷 Twitter/X AI 圈 + Hacker News 首页
每周 (1 小时): 读 1-2 篇 Newsletter + 1 篇感兴趣的论文摘要
每月 (半天): 深读 1-2 篇重要论文 + 跑一个新工具/框架的 Demo
每季度: 回顾自己的技术栈,看看哪些过时了需要更新

原则: 信息焦虑是 AI 从业者的通病。不需要什么都知道,只需要知道去哪里找。建立自己的信息过滤系统比疯狂刷信息更重要。