朱熠恺的博客 | Yikai Zhu Blog

sglang dp attention Walk Through

parallelism in sglang

Background 在目前训练/推理的各个场景里，Attention层的并行策略和MoE层的并行策略是不一样的。这个已经逐渐成为了一种趋势，因为MoE层里有EP这个额外的并行策略考虑。目前Sglang的代码演进的很快，如果只看代码会发现可能过几天就变了；理解一些high level的概念之后再去看代码，会发现都是一脉相承，会更好的理解代码。本文重点看Sglang里dp attenti...

Posted by Yikai on June 6, 2025

Amazon OA Sample 分享

Hardest Amazon OA of 2024

背景先来看看原题: (懒得看英文的小伙伴没关系，后面会有中文概括，但建议还是看看原题) 注: 图片来自这个人的YouTube视频: https://www.youtube.com/watch?v=aPP8wkSBiLg, 评论区的链接不知道为啥打不开了，因此我放了截图，这个是我看到的对这道题目最完善的描述，很遗憾他提供的代码不是最优雅的。其他题目链接可以参考这个链接和这个链接。可以...

Posted by Yikai on October 13, 2024

Rope Embedding Optimization

Understand RoPE From Engineer's View

旋转编码 RoPE 旋转编码是苏剑林老师在论文 Roformer: Enhanced Transformer With Rotray Position Embedding 中提出的，苏神是怎么想到这个idea的详细可以参考他的博采众长的旋转式位置编码, 其他位置编码的调研则参考了苏神的让研究人员绞尽脑汁的Transformer位置编码。下面是笔者从博客中简单做的总结，对于懒得看数学推导的...

Posted by Yikai on September 27, 2024

CUDA Mode 学习笔记1: Reduction

notes of how to optimize Reduction from scratch

这几天在学习Cuda Mode, 只之前听人说这是最合适入门Cuda的网课。但是听完了之后，我的结论是，这门课里的很多内容并不适合初学者，适合有一定并行学习基础的人。如果是还没接触过Cuda的学生的话，建议还是从斯坦福的CS149开始学习。我之前听过斯坦福的CS149，把里面的大作业都跟下来了，也算是有一点并行计算的基础；只是当时很多内容没有深究，看看网课就过去了，所以了解的不深。这门Cud...

Posted by Yikai on September 22, 2024

Advanced Machine Learning Systems: GEMM

notes of how to optimize SGEMM from scratch

前言首先，必须要认识到，把矩阵乘法优化到极致这件事情是一个非常非常难的事情，很多做芯片的搞体系结构的人都盯着这个方向。因此，作为一个初学者，我比如要想清楚自己到底为什么要做这个项目。我给自己定的小目标是以下三个：通过矩阵乘法的优化，大概了解GPU的基本架构，并能大概估计硬件层面的架构对于软件的性能到底会产生的影响。实现一个足够具有扩展性的实验架构，如果以后对于其他kern...

Posted by Yikai on November 8, 2023

Machine Learning System Basic II: Basic nn.Module Layers

class note of CMU 10 414/714

序这篇文章是CMU 10-414/714的学习笔记第二篇。主要概括课程Lec6-Lec10的内容。本文重点如下，欢迎大家评论补充。 Initialization: 神经网络的初始化实现 Optimization: 机器学习优化器实现 Initialization 教授强调了一点：初始化方式会对最终的结果产生非常大的影响，因为模型最终收敛时的参数与初始参数的距离是很小的。...

Posted by Yikai on October 21, 2023

Machine Learning System Basic: Framework

class note of CMU 10 414/714

序这篇文章是CMU 10-414/714的学习笔记第一篇。主要概括课程前5讲的内容。我感觉前五讲中的重点如下，欢迎大家评论补充。机器学习系统的基本框架(Framework) 自动微分(Automatic Differentiation)及其实现细节在整个笔记系列的最前面，补充一点我的个人看法：我认为这门课是一门非常 engineering 的课程。机器学习系统其实是支...

Posted by Yikai on October 11, 2023

Hello 2023

Hello World, Hello Blog

“Yeah It’s on. “ 2023 年, 小朱总算开始搭建自己的博客平台了。在网上找了很多模板之后决定参考黄玄的模板。建立自己博客的初衷是希望自己在打工之余也不要停下学习的步伐，因此想建一个自己的博客，记录一下自己的感悟，以及学习的笔记。序复制粘贴也是一个技术活，尤其对于我这个不怎么懂前端的人来说。原作者的仓库更多的关注了如何实现，而我的仓库只想告诉大家，一个完...

Posted by Yikai on September 3, 2023

Yikai Zhu Blog

sglang dp attention Walk Through

parallelism in sglang

Amazon OA Sample 分享

Hardest Amazon OA of 2024

Rope Embedding Optimization

Understand RoPE From Engineer's View

CUDA Mode 学习笔记1: Reduction

notes of how to optimize Reduction from scratch

Advanced Machine Learning Systems: GEMM

notes of how to optimize SGEMM from scratch

Machine Learning System Basic II: Basic nn.Module Layers

class note of CMU 10 414/714

Machine Learning System Basic: Framework

class note of CMU 10 414/714

Hello 2023

Hello World, Hello Blog

FEATURED TAGS

ABOUT ME

FRIENDS