IntelliSys Lab 招 Research Intern on RL/RLHF System Fault Tolerance

146
0
关于我们实验室:intellisys.haow.us

我们有一个ongoing的项目 RL/RLHF System Fault Tolerance and Recovery,寻找1-2名 research interns 加入 (可以remote),目标还是 ML & Sys 相关顶会(项目更偏向于system)。

项目进展:1) 目前我们Serverless RL training system 发表了4篇 (AAAI'24, SC'24, VLDB'25, SoCC'25),Serverless RLHF 1篇在投 (HPDC'26),有现成的system code base; 2) 目前已经完成 Serverless RL/RLHF System Fault Tolerance and Recovery 的 storyline 第二轮迭代。相关项目在这里:intellisys.haow.us, intellisys.haow.us

项目团队:有一位组里的PhD,两位老师(另一位是普渡大学做fault tolerance的教授)。实验室提供足够的计算资源。

Intern的背景和时间 availability:1)Strong system background, particularly Linux, containers (docker/k8s); 2) 有关于 RL/RLHF 的理解;3)我们有weekly meeting,希望3-4月内能投出去论文。

有问题欢迎私信,如果想加入项目请联系 1point3acres.com ,请附上CV & transcripts。收到邮件后,我们会尽快安排Zoom meeting interview。