OopsYanxi
主页
归档
关于
GitHub
主页
归档
关于
GitHub
OopsYanxi
OopsYanxi dolor sit amet, consectetur adipiscing elit.
分类
Algorithm
2
Deep Learning
10
Docker & K8s
4
LangChain
22
Machine Learning
12
Others
1
Python
4
Transformer
12
更多
标签
Agent
AgentExecutor
AI
Anthropic
API
ASR
Attention
Batch Normalization
Beam Search
BPE
ChatHistory
CNN
Config
Decoder
Deepseek
Docker
Dockerfile
Early Stopping
Embedding
Encoder
Encoder-Decoder
FastAPI
FFN
Function Calling
Gradio
HybridSearch
K8s
Kubernetes
Label Smoothing
LangChain
LangGraph
LangServe
LangSmith
LayerNorm
LCEL
LLM
LSTM
Masked Attention
Memory
MessageHistory
Multi-Head Attention
NLP
Ollama
OpenAI
OutputParser
Positional Encoding
Prompt
Pydantic
Python
PyTorch
Qwen3
RAG
ReAct
ResNet
Retriever
RNN
RoPE
Runnable
Scaled Dot-Product
Self Attention
Softmax
SQLite
StateGraph
Teacher Forcing
Tool
Top-k
Transformer
VectorStore
Warmup
从零实现
代码实现
优化
位置编码
分类
分词
前向传播
升维
原理
参数初始化
反向传播
回归
因果掩码
图像处理
图像识别
图论
基础
多任务
多头注意力
多模态
实例解析
实战案例
容器
容器编排
序列模型
归一化
总结
损失函数
有监督学习
机器学习
架构
框架
梯度下降
梯度消失
正则化
残差连接
注意力机制
注意力计算
深度学习
源码
激活函数
特征工程
状态机
环境配置
监控
神经网络
算法流派
索引
线性回归
结构化输出
网络编程
自回归
解码策略
计算机视觉
计算机网络
训练
训练流程
设计模式
语言模型
过拟合
通义千问
速查表
逻辑回归
部署
阿里云
降维
项目实战
高级
更多
Token Embedding
2026-04-22
Transformer
/
Transformer
/
Embedding
/
分词
/
BPE
分词策略与词嵌入矩阵:文本如何变成向量
1153 字
|
6 分钟
位置编码
2026-04-22
Transformer
/
Transformer
/
Positional Encoding
/
RoPE
/
位置编码
为什么 Transformer 需要位置编码,正弦编码推导与现代方案
1333 字
|
7 分钟
理解 Self Attention
2026-04-22
Transformer
/
Transformer
/
Self Attention
/
注意力机制
用直觉类比理解 Self-Attention 的核心思想与 Q/K/V 机制
997 字
|
5 分钟
Self Attention 计算
2026-04-22
Transformer
/
Transformer
/
Self Attention
/
Scaled Dot-Product
/
注意力计算
Scaled Dot-Product Attention 的完整数学推导、数值实例与代码实现
1180 字
|
6 分钟
多头注意力
2026-04-22
Transformer
/
Transformer
/
Multi-Head Attention
/
多头注意力
Multi-Head Attention 的原理、参数量分析与代码实现
984 字
|
5 分钟
Transformer 代码实现
2026-04-22
Transformer
/
Transformer
/
PyTorch
/
代码实现
/
从零实现
从零用 PyTorch 实现完整的 Transformer 模型
1549 字
|
8 分钟
Transformer 总结与训练
2026-04-22
Transformer
/
Transformer
/
训练
/
Teacher Forcing
/
Warmup
/
Label Smoothing
Transformer 全链路回顾、训练策略与关键技巧
1238 字
|
6 分钟
Encoder Block
2026-04-22
Transformer
/
Transformer
/
Encoder
/
FFN
/
LayerNorm
/
残差连接
Transformer 编码器块的完整结构:多头注意力 + FFN + 残差连接 + LayerNorm
1169 字
|
6 分钟
1
2
3
4
5
6
9