Yikai Zhu Blog

不积跬步,无以至千里。不积小流,无以成大海。

Amazon OA Sample 分享

Hardest Amazon OA of 2024

背景 先来看看原题: (懒得看英文的小伙伴没关系,后面会有中文概括,但建议还是看看原题) 注: 图片来自这个人的YouTube视频: https://www.youtube.com/watch?v=aPP8wkSBiLg, 评论区的链接不知道为啥打不开了,因此我放了截图,这个是我看到的对这道题目最完善的描述,很遗憾他提供的代码不是最优雅的。其他题目链接可以参考这个链接和这个链接。可以...

CUDA Mode 学习笔记1: Reduction

notes of how to optimize Reduction from scratch

这几天在学习Cuda Mode, 只之前听人说这是最合适入门Cuda的网课。但是听完了之后,我的结论是,这门课里的很多内容并不适合初学者,适合有一定并行学习基础的人。如果是还没接触过Cuda的学生的话,建议还是从斯坦福的CS149开始学习。我之前听过斯坦福的CS149,把里面的大作业都跟下来了,也算是有一点并行计算的基础;只是当时很多内容没有深究,看看网课就过去了,所以了解的不深。这门Cud...

Advanced Machine Learning Systems: GEMM

notes of how to optimize SGEMM from scratch

前言 首先,必须要认识到,把矩阵乘法优化到极致这件事情是一个非常非常难的事情,很多做芯片的搞体系结构的人都盯着这个方向。因此,作为一个初学者,我比如要想清楚自己到底为什么要做这个项目。我给自己定的小目标是以下三个: 通过矩阵乘法的优化,大概了解GPU的基本架构,并能大概估计硬件层面的架构对于软件的性能到底会产生的影响。 实现一个足够具有扩展性的实验架构,如果以后对于其他kern...

Machine Learning System Basic II: Basic nn.Module Layers

class note of CMU 10 414/714

序 这篇文章是CMU 10-414/714的学习笔记第二篇。主要概括课程Lec6-Lec10的内容。本文重点如下,欢迎大家评论补充。 Initialization: 神经网络的初始化实现 Optimization: 机器学习优化器实现 Initialization 教授强调了一点:初始化方式会对最终的结果产生非常大的影响,因为模型最终收敛时的参数与初始参数的距离是很小的。...

Machine Learning System Basic: Framework

class note of CMU 10 414/714

序 这篇文章是CMU 10-414/714的学习笔记第一篇。主要概括课程前5讲的内容。我感觉前五讲中的重点如下,欢迎大家评论补充。 机器学习系统的基本框架(Framework) 自动微分(Automatic Differentiation)及其实现细节 在整个笔记系列的最前面,补充一点我的个人看法:我认为这门课是一门非常 engineering 的课程。机器学习系统其实是支...

Hello 2023

Hello World, Hello Blog

“Yeah It’s on. “ 2023 年, 小朱总算开始搭建自己的博客平台了。在网上找了很多模板之后决定参考黄玄的模板。建立自己博客的初衷是希望自己在打工之余也不要停下学习的步伐,因此想建一个自己的博客,记录一下自己的感悟,以及学习的笔记。 序 复制粘贴也是一个技术活,尤其对于我这个不怎么懂前端的人来说。原作者的仓库更多的关注了如何实现,而我的仓库只想告诉大家,一个完...