Yikai Zhu Blog

不积跬步,无以至千里。不积小流,无以成大海。

sglang dp attention Walk Through

parallelism in sglang

Background 在目前训练/推理的各个场景里,Attention层的并行策略和MoE层的并行策略是不一样的。这个已经逐渐成为了一种趋势,因为MoE层里有EP这个额外的并行策略考虑。目前Sglang的代码演进的很快,如果只看代码会发现可能过几天就变了;理解一些high level的概念之后再去看代码,会发现都是一脉相承,会更好的理解代码。 本文重点看Sglang里dp attenti...

Amazon OA Sample 分享

Hardest Amazon OA of 2024

背景 先来看看原题: (懒得看英文的小伙伴没关系,后面会有中文概括,但建议还是看看原题) 注: 图片来自这个人的YouTube视频: https://www.youtube.com/watch?v=aPP8wkSBiLg, 评论区的链接不知道为啥打不开了,因此我放了截图,这个是我看到的对这道题目最完善的描述,很遗憾他提供的代码不是最优雅的。其他题目链接可以参考这个链接和这个链接。可以...

Rope Embedding Optimization

Understand RoPE From Engineer's View

旋转编码 RoPE 旋转编码是苏剑林老师在论文 Roformer: Enhanced Transformer With Rotray Position Embedding 中提出的,苏神是怎么想到这个idea的详细可以参考他的博采众长的旋转式位置编码, 其他位置编码的调研则参考了苏神的 让研究人员绞尽脑汁的Transformer位置编码。下面是笔者从博客中简单做的总结,对于懒得看数学推导的...

CUDA Mode 学习笔记1: Reduction

notes of how to optimize Reduction from scratch

这几天在学习Cuda Mode, 只之前听人说这是最合适入门Cuda的网课。但是听完了之后,我的结论是,这门课里的很多内容并不适合初学者,适合有一定并行学习基础的人。如果是还没接触过Cuda的学生的话,建议还是从斯坦福的CS149开始学习。我之前听过斯坦福的CS149,把里面的大作业都跟下来了,也算是有一点并行计算的基础;只是当时很多内容没有深究,看看网课就过去了,所以了解的不深。这门Cud...

Advanced Machine Learning Systems: GEMM

notes of how to optimize SGEMM from scratch

前言 首先,必须要认识到,把矩阵乘法优化到极致这件事情是一个非常非常难的事情,很多做芯片的搞体系结构的人都盯着这个方向。因此,作为一个初学者,我比如要想清楚自己到底为什么要做这个项目。我给自己定的小目标是以下三个: 通过矩阵乘法的优化,大概了解GPU的基本架构,并能大概估计硬件层面的架构对于软件的性能到底会产生的影响。 实现一个足够具有扩展性的实验架构,如果以后对于其他kern...

Machine Learning System Basic II: Basic nn.Module Layers

class note of CMU 10 414/714

序 这篇文章是CMU 10-414/714的学习笔记第二篇。主要概括课程Lec6-Lec10的内容。本文重点如下,欢迎大家评论补充。 Initialization: 神经网络的初始化实现 Optimization: 机器学习优化器实现 Initialization 教授强调了一点:初始化方式会对最终的结果产生非常大的影响,因为模型最终收敛时的参数与初始参数的距离是很小的。...

Machine Learning System Basic: Framework

class note of CMU 10 414/714

序 这篇文章是CMU 10-414/714的学习笔记第一篇。主要概括课程前5讲的内容。我感觉前五讲中的重点如下,欢迎大家评论补充。 机器学习系统的基本框架(Framework) 自动微分(Automatic Differentiation)及其实现细节 在整个笔记系列的最前面,补充一点我的个人看法:我认为这门课是一门非常 engineering 的课程。机器学习系统其实是支...

Hello 2023

Hello World, Hello Blog

“Yeah It’s on. “ 2023 年, 小朱总算开始搭建自己的博客平台了。在网上找了很多模板之后决定参考黄玄的模板。建立自己博客的初衷是希望自己在打工之余也不要停下学习的步伐,因此想建一个自己的博客,记录一下自己的感悟,以及学习的笔记。 序 复制粘贴也是一个技术活,尤其对于我这个不怎么懂前端的人来说。原作者的仓库更多的关注了如何实现,而我的仓库只想告诉大家,一个完...