2025暑期总结
由于这个夏天确实发生了很多事情,所以打算写一个夏季的总结,也算是一反春秋两季总结的常态吧www
一时不知道从哪里说起,就按照时间线顺序吧
2025.6
在5月底6月初的时候,我结束了我的第一段实习,回到了学校;由于这个学期我并没有什么课,所以一直到期末考试结束,我反而是放假的,当时的初步打算是休息休息 、沉淀沉淀,然后在9月开学的时候再投下一段实习
但说实话,第一段实习主要做的是AI应用,虽然有涉及到不少算法工作,但本质上是公司太草台了根本没有专门做这个的算法岗,所以实习生当全栈用,于是当时其实不太知道投些什么好,在学校的帖子中是这么写的
楼主准备在八九月分投下一段日常实习,目前还在
- LLM应用
- 搜推
- 后端
中摇摆,大概到时候都会投一些,而从现在到八月的时间空闲不少,楼主认为有必要沉淀沉淀 遂开此楼,记录一下楼主在准备力扣八股中的思考,不过力扣估计是7月份才会启动,最近主要是战八股。
于是当时就开始看一些传统后端八股,之前没学的东西,当时还列了一个学习list,从mq到spring cloud, dubbo等等(虽然最后也只看了mq),顺带看一些大厂技术博客,主要是RAG方向(沿着实习的继续看,例如美团对向量搜的优化等等,当时对搜广推的想法主要是搜索),还有像是王树森的搜推基础
然后在这个时候发生了一个很有趣的事情,让我又开始找起来了实习。起因是一直想参与一些开源工作,当时GSoC已经错过了,但是ospp还是可以报的,于是花了不少时间在ospp项目的筛选和查看上。结果进到一个项目的群里,三四十个人抢一个机会,当时就感觉很离谱,然后就润了,在和很多同学的交流过程中也对AI到底有多火拿到了新的认知。
但ospp没拿到机会,突然又觉得暑假没什么事情做,尝试联系了一两个老师,做的项目又总是很草台或者很没意思(例如,benchmark),于是打算还是找一段暑期实习吧,看看有没有什么机会,就开始再刷刷力扣和招聘软件。
2025.7
但比实习面试更先一步肘击的是我们学校的暑假小学期课程,这门课程就是把人关在教室里面结对开发,一周五天从早到晚,属于是没含金量没钱没需求的实习了。于是6月底和7月前半的生活主要在写这门课相关的项目(自命题了个想做的写,主要做文档补全相关的东西,在其中把之前接触相对较少的vllm等推理引擎和很多文档补全的算法和设计接触了一下,比如Fill in the Middle, 多模态rag,reranker的调优等等)
而在找实习方面,也是第一次直面了就业市场的压力(第一段实习其实算是实验室合作项目),投了100家就几个面试,最后offer的更是寥寥(不过后来发现其实已经算好的了,交大title还是好用的),白天上课推项目晚上投实习刷八股力扣,中间抽空面试,到后面是真的负能量很多很破防。
最后面下来的结果是几个offer, 一个华为的AI rag实习生,但做的是培训这种听起来就很草台的业务;一个是百度的文档理解实习生,但百度实在是太抠了200/d,再加上学长同学都觉得百度业务不行,最后接的是另一个百亿私募的offer,说做AI工具这一块(不过后来又出现了奇怪的经历www),面下来还是收获很多的:
- 对面试过程有了正确的了解,在去年面字节的时候说实话完全不能算是经验,就是完全没达到标准还,在7月的时候已经面麻了,真有一种对简历也好其他也好越来越得心应手,知道面试官会对哪些内容感兴趣的感觉
- 建立了对转行的信心,学期初对跑路AI应用这件事情惴惴不安,在5月的时候也完全不敢碰算法岗,但百度的offer真的极大增强了找算法岗的信心,原来这样工程的简历在算法侧也是有公司肯要的,当时就和同学说“感觉后面再做一段应该能找到大厂的算法实习”(现在看来实则不一定www,当时过于乐观)
- 在6月份到7月份的沉淀过程中逐渐了解了学界和业界都在做什么东西,配合自己写的项目,对整个rag链路的了解更深了,实习期间因为业务原因没机会做的一些东西也做了起来
由于第一段比较草台,说实话没对quant或者qd岗有什么额外的了解,于是接了私募的offer打算再做一段正经些的qd。
2025.8
后半个七月+八月是很有趣的实习time
实习期间干的东西特别神奇,半个ai infra+半个devops,说好的ai tools呢,几乎只有入职后的landing任务是ai tools(笑)
由于涉及到一些保密政策,所以不能说很多。但主要是在做两个方向,一个code agent,第二个是模型部署和推理优化
但很搞的是,我不会ai infra啊!但在和+2的第一次meeting中,+2说了一句现在这个还没人做,你就做这个方向吧,实习任务就是这个了,其实我更想做当时+2提出的训练侧和文档理解agent相关任务来着(笑,不过现在看来未必是坏事, +2说没事你可以学啊!
于是草台对草台,稀里糊涂的就接了部署k2的任务,目标就是打到一个指定的qps来支撑公司后续的ai服务
还没说的是在公司的第一周有一个很完善的入职培训,真被强制要求学了一些quant相关的基础知识,感觉还是很开眼界的,看了2天视频(笑
开始是在显卡云厂商上部署,mt帮我配好了nccl之类环境,我再加装了deepEP之类,一边是看着vllm/sglang文档开关各种参数测性能,另一边是在测的时候也就顺带看看这些参数对应的论文和博客,了 解一下是什么意思。当时因为觉得从来没做过ai infra写算子之类肯定没什么产出,所以一直在看投机解码这个方向的文章想看看能不能训个草稿模型加上去(了解到投机解码也是6月份沉淀的时候www),倒是真用specForge训了点,但一个是对k2这种新模型支持不好,另一个是训练的结果并没有很出彩......所以就没太多产出吧
然后这一小块结束之后就是上k8s,也是苦痛和成长(?)的来源(至少我之前确实没操过k8,遑论是gpu集群)
+2最开始想用的是ome,说让我们先调研一下,于是看了production stack, ome等,然后+2就给了个k8s集群,说那你们开始部署吧!谁能想到这个aws集群是苦痛来源呢......
这个aws到底为什么恶心呢?
-
给到我们的aws的pod不是“裸”的(aws hyperpod sagemaker),在上面有专门的nvidia plugin pod,不能直接装gpu operator不然会把集群干爆.......
-
vllm/sglang社区没有对aws sagemaker这一aws新推出的产品做适配,只有普通版本的aws eks的解决方案,而我们因为租不到机器只有sagemaker可用
-
我的aws经常缺各种权限,整个context也非常神秘,aws自己的文档也是大芬,控制台界面一点都不清晰,十分难用,多亏了mt的扶持......
-
aws的网络栈问题: aws的pod是没有InfiniBand的!!!取而代之的是一个叫做efa的网络系统,在我解决了九九八十一难安装好lws,cert-manager,理解和处理好s3,pv,pvc等问题之后,尝试部署ome的时候又发现缺这个缺那个,设备map里面没有sagemaker...之后,发现部署不起来的原因是这个b没有eth0网卡!太神人了太抽象了,于是后面涉及到的大量组件都没有支持,全是我们和aws那边自己打镜像装驱动打出来的,比如基本的nccl, ucx和deepgemm......
-
然后production stack那边,kuberay方 案倒是能正常跑起来,但lmcache和MLA模型的兼容到我离职还没修好,在和aws的人一起战完ome和production stack宣布倒下之后转向了裸sgl部署.....
-
这个sagemaker启动还很麻烦,开开关关,每次都要重新下载模型,完成配置等。最开始还没有ssh这种权限,全靠ai告诉我怎么写一个k8s job去启动下载......中间看过一点k8s operator相关的东西,但说实话没怎么看明白;后期装了node-shell插件之后倒是好了些,也知道node-shell省去自己写debug container,再看host宿主机了
-
整个这个方向就是特别草台,比如在实习期间起aws的hyperpod的时候,有一次起不来,看了一下log发现在s3失败了,找了很久终于找到是因为名字写得太长(流汗黄豆,aws会在你的名字之外拉一坨哈希之类的东西,又只给了64的长度,还没有报错);结果修了之后还是炸,发现是helm add nvidia的gpu operator炸了,原因是nv那边推了一个错误的commit到主分支......
在整个过程中天天就是敲kubectl logs events describe apply delete+各种搜github issue, 感觉代码都不会写了(残念);不过也因为部署这个活,抽空看了不少论文,infra & rl & rag & code & agent
反正最后的结果是32H200的k8集群,k2在32k上下文80%cache hit rate下差不多 5.5 QPS,感觉对我自己来说还是一个可接受的值吧,lmsys 博客里面那个数据有点太玄幻了,好像也是在短上下文测的 ...... pd分离也做过没感觉有提升吞吐,dp-attention更是不知道为什么纯负优化,可能是姿势不对;
在公司还享受到一个福利是用上了最新的AI工具,cursor&claude code,还是有很多之前copilot没带给我的体验的,也为后续做codellm打了一定基础吧
然后在 8月底到9月初 这段时间吧,有点想离职了,一方面是做的方向确实和未来发展不搭:在干了一个月之后我比较确定后面是不想做ai infra的,还是算法更有意思一些;另一方面是学校那边各种事情也没完全结束,例如组会,例如勾搭到了另一些机会去做一些正统的llm4code研究,也通过相关的一些经验拿到了字节的offer......
于是就在9月中旬结束了这一段,一个是处理学校那边的事情,另一个是开启了下一段字节旅程,这次应该是做“算法”了.......
除此之外可记的主要就是一些娱乐的东西,比如打mai,或者丝之歌
整体上来说,这三个月确实对对整个眼界也好还是对AI算法的了解也好有了很大的breaking change,包括经常和一些很厉害的同学交流,有人在美国的、有大二就开始大厂实习的、有经验丰富的研究生和博士...... 包括自己看的一些论文吧,对可能前沿在哪边大致有一个轮廓了。
另一个比较有意思的是和aws那边的接触,感觉和他们开了特别多会www,在后面的时候,有一个他们那边的产品(?)来上海和我约了下咖啡,然后聊了一些关于我们的项目的事情,并对我大二跑出来实习这件事情感到很惊讶,说后面感兴趣也可以试试能不能去他们那里实习。然后和aws那边说我应该快要离职的时候,他们也挺惊讶的,问我是去新公司还是还在学校,并问我博几了(笑,绷不住了),然后我和他们说是本科,还有两年才毕业www
整体上也算是体验了一把系统工作,还低成本的体验了oncall(主要是看aws和mt oncall,笑)
但还是可能会感觉量化做的东西比较小家子气,所以下一段实习比较坚定地选了去大厂看看整体的技术深度也好,对产品或者业务的理解也好,去接触一些真正scale out的项目,其实也有和同学们聊天,更清晰地认识到了同一个方向,大小厂做的可能完全是两种东西的现状。