你为什么不应该选择data science项目 —— 写在2025年
768211
2022和2023年时,楼主断断续续码完了《你为什么不该选择DS》系列,在地里和小红书获得了不少好评和反馈。几年过去,楼主从NG变成了有些班味儿的打工人,也完成了一次职业上的变动。身份的变化,让楼主对行业和Data Science学科的理解又有些不同。GenAI的快速进步,也对data science乃至整个IT行业产生了深刻的影响,甚至目前仍处于大变化前期。博主感到是时候重新捡起此文章做以增删修补,和各位读者加以探讨。如果能帮助到申请中的学生和NG就更好了。
首先叠甲,博主作为"资深DS学生",找工季几乎面过了所有DS能申请的岗位类型,也顶着Data Scientist的title工作了好几年。本贴集中讨论对Data Science(特别是master)教育的看法,并非是对Data Science领域,或对Data Scientist岗位的评判。
Agenda:
以下简称Data Science或者Data Scientist为DS,并非DeepSeek(DeepSeek出现后DS的缩写都要产生歧义了,也是蛮好笑)。
Data Science专业对应的工作岗位详解
Data Science领域岗位命名的混乱由来已久。虽然网络上介绍岗位区别的post已经难以胜数,但随着时间的变化,不同的岗位title也会有职能上的变化。为了本贴讨论的clarity,我们有必要从这个话题讲起:
我给DS学生找工的岗位分为大致以下7类:
虽然上述的分类无法完美定义市场上的所有data类工作,各公司也并非按此定义来给岗位命名;但根据其工作内容可以相对容易地进行mapping:比如Meta的DSA实际上更偏Product DS,而Core Data Science可以理解为Research Scientist。
这7类title,基本可以涵盖DS专业90%以上的工作出路。对coding能力的要求按1-7递增,而在工资水平方面,5、6、7一般显著高于前4类,AS/RS的上限一般略高一点。
对于心存好奇或刚刚进入Data Science领域的新同学来说,往往会存在一个常见的迷思:Data Science就是万金油,毕业后又能做DA,又能做DS,我的学长学姐还有做MLE、SDE进大厂的。但非常sorry,理想是美好的,现实是残酷的。
DS对口岗位的分化之大,使得多数找工的申请者只会专注于一类或者两类title。常见的组合包括:
在了解工作分类之后,那么破除这条迷思的道理在这里就非常浅显了:对申请DA的朋友来说,往往不具备足够的ML和coding能力去申请MLE。而MLE/SDE的申请者,又为何要去考虑DA之类的岗位呢?DS所谓的"就业面广"、"胜任多种职位"完全是一个伪命题。就业面再广,毕业时也就找那几个岗位,和你又有什么关系?
所以对于任何想要学习Data Science专业,特别是转专业申请的同学来说,一个很重要的问题就是:
结合自己的背景和能力,需要尽早确定想要追求的岗位分类,并且针对性地做好准备和选择。
Data Scientist的核心能力 - Post GenAI时代
此部分的讨论将集中于Data Analyst,Product DS,和Data Scientist岗位;MLE和SWE将不纳入范畴。
Data Scientist的核心能力,特别是在GenAI的时代,是业务理解。诚然沟通,对数据的sense,信息处理的能力都非常重要,但这些都将服务于Data Scientist对业务的理解。业务知识、data的理解、institutional knowledge,这些本来就很重要的能力,随着GenAI的发展变得愈发关键。而这些对entry level Data Scientist都是非常不利的。
如果说在GenAI之前,DS可以凭借一些数据处理,统计或者可视化的能力换得一碗饭吃;那么GenAI特别是代码和数据处理能力的进展,让任何不够复杂的DS项目都很容易被AI改变生产逻辑。这并非意味着AI会消灭DS岗位,或者一个PM或者SDE就会借助AI取代DS(虽然确实有在发生),但GenAI工具可以极大程度上解放senior DS的能力并且削减对entry level Data Scientist的需求。比如对一个dataframe的处理和可视化,通过GenAI在几秒钟内就可以替代一个junior一两天的工作,Data Scientist的工作往往不需要高复杂度的代码库和产品长期的维护性,这对Data Scientist的工作要远早于SDE。这意味着Data Scientist的工作会更容易被挤压。
Data Science教育的局限
用一段话来总结:Data Science的相关项目,已经完全不足以提供课程设计和学科深度来支持学生获得机器学习为主的相关岗位;而相关项目并不低的bar+对机器学习和CS相关的涉猎,如果期望学生只获得一份纯data analysis的工作,那么DS项目已经成为一个性价比很低的选择。
博主这里并非厚此薄彼ML入脑觉得算法高人一等。但业内SDE和MLE的薪资确实高于Data相关的工作,若学生有着可以去读CS的三维去读DS,难道不是应该说一句性价比低吗?
在2016-2018年左右,开设DS项目的学校还算不上多,接受过完整DS、ML科班训练的candidate还是稀有动物。会传统的ML算法,对深度学习有一定的了解,在当时或许就能找到一份不错的工作。而Deep Learning,乃至目前LLM全面take over,其实极大程度上消灭了Data Science专业存在的意义。
在DS项目常见的设计构想中,概统、Database、数据结构/算法、ML作为必修,辅以几门选修课的设计,足以让学生毕业后找到一份使用机器学习的工作。然而DL的全面发展,使得"左会统计分析,右能机器学习"的美好期望,已经全面落后于业界,特别是tech行业的实际需求。
近年来AI领域的三大支柱无非是CV,NLP,搜广推,最近几年又多了GenAI。但这几大和DS教育又是何种关系呢?
多数项目至今不会把Deep Learning列为必修,传统的NLP语言学模型就能教半学期,在校内可以接触到分布式计算的DS项目又有几个?DS学生相对羸弱的CS能力,更是越来越难以应付tech大厂的需求和面试。
博主对Data Science学生的建议
高不成低不就的DS学生,如果按部就班其实只有三条路:
那么我的问题是,这样的DS教育存在的意义是什么?为什么不选择统计或者CS?
破局之法:
虽然整体赴美读书转tech的性价比在急剧下降、难度在急剧上升,甚至码农本身还有几天好日子过也说不准,但博主还是有几点想法抛砖引玉:
写在最后
从还是NG时写下第一版到今天,博主自己也经历了身份的转变和工作的洗礼。但博主欣慰的是,此前贴子所言来自于百分百真实的感悟总结,在几年后也确实经受住了时间考验——多数观点至今仍然成立,也并没有被增长的经验打脸。但话说回来,这些看法终归是一家之言,有什么不足之处,还希望和各位读者探讨。
最后,若有哪位大佬觉得写的不错,本人open to MLE工作,搜推广方向。若有内推感谢不尽。
首先叠甲,博主作为"资深DS学生",找工季几乎面过了所有DS能申请的岗位类型,也顶着Data Scientist的title工作了好几年。本贴集中讨论对Data Science(特别是master)教育的看法,并非是对Data Science领域,或对Data Scientist岗位的评判。
Agenda:
- Data Science专业对应的工作岗位详解
- Data Scientist的核心能力 - post GenAI时代
- Data Science教育的局限
- 博主对Data Science学生的建议
以下简称Data Science或者Data Scientist为DS,并非DeepSeek(DeepSeek出现后DS的缩写都要产生歧义了,也是蛮好笑)。
Data Science专业对应的工作岗位详解
Data Science领域岗位命名的混乱由来已久。虽然网络上介绍岗位区别的post已经难以胜数,但随着时间的变化,不同的岗位title也会有职能上的变化。为了本贴讨论的clarity,我们有必要从这个话题讲起:
我给DS学生找工的岗位分为大致以下7类:
- Data Analyst (Almost no ML)
- Product Data Scientist(Almost no ML, more statistics, more experiment design)
- Data Scientist(Experiment, decent more traditional ML, rarely DL)
- Data Engineer (Build Data Pipeline, no ML)
- Applied Scientist/Applied Researcher/Research Scientist (ML, mostly DL, more modeling)
- Machine Learning Engineer / SDE ML (ML, mostly DL, more coding and MLOps)
- SDE、SWE (No ML/DL, or ML infra only)
虽然上述的分类无法完美定义市场上的所有data类工作,各公司也并非按此定义来给岗位命名;但根据其工作内容可以相对容易地进行mapping:比如Meta的DSA实际上更偏Product DS,而Core Data Science可以理解为Research Scientist。
这7类title,基本可以涵盖DS专业90%以上的工作出路。对coding能力的要求按1-7递增,而在工资水平方面,5、6、7一般显著高于前4类,AS/RS的上限一般略高一点。
- Data Analyst:工作大多以分析数据为导向,绝对的核心技能是SQL,同时会使用一些Python和数据可视化工具,几乎不会有使用ML的机会。会有很多试验指标分析、可视化、看板搭建,和来自不同业务方对于业务数据分析的需求。
- Product DS: 该类岗位往往存在于数据建设较完善的tech中大厂,虽然他们日常工作不太需要用到ML,但也绝非仅限于写写SQL,画画dashboard,跑跑A/B testing。工作内容可能会包括metric definition、measurement和tracking。这类岗位往往涉及复杂实验的设计和因果推断。工作复杂度高于DA,往往不使用ML,但需要较强的统计背景和业务知识。即便是A/B Testing,也有很多复杂的问题需要研究:怎么设计这个实验,实验中有哪些问题需要规避。
- Data Scientist:接近于Full Stack Data Scientist,我认为这个类别的岗位基本只存在于中小厂和传统行业了。对DA和DS最简单粗暴的区分在于DS一般会使用ML;DS和AS/RS/MLE的区别则在:DS往往不会长期own一个业务模型去持续改进,而很多时候后者会持续在一个业务模型上进行优化。在对岗位定义尚不明确的年代,DS下能做统计分析,上能做机器学习,俨然吊打各路。但随着DL的快速发展和业界需求的变化,DS的生存空间正在被快速挤占——而这也正是我会在后续文章中展开介绍的。
- Data Engineer: 设计、构建和维护数据处理系统及管道。清洗、转换和标准化原始数据,使其符合分析和业务需求。开发和优化数据库结构、数据仓库和大数据平台,为数据科学家、分析师和业务用户提供数据基础设施。有些DE会写SQL或者Spark,有些DE则更偏Infra的开发。
- AS/RS:这类岗位既要会ML、DL模型开发和优化,又要懂得一些模型的部署和线上指标。一般负责产品某个功能核心算法模型,目前多数都是DL为主,比较重要的分类包括CV、推荐和GenAI(LLM)等。工作内容往往会包括对模型结构的优化,因此需要读paper来跟上业界和学界的发展,对PhD有很强的偏好。
- MLE/SDE ML: 这类title和AS/RS其实差别不大。在A公司AS或许更像MLE,而B公司MLE或许research做的比RS更好。但我的区分是MLE相对做更少的modeling,而更多地注重在ML pipeline的开发和部署。小厂往往没有精力去做业界领先的开发,往往只需要MLE title来做业务;大厂RS来提升模型,其余的开发和部署留给MLE。
- SDE: 这个title非常好理解,基本就是开发。有些厂会把做ML infra的岗位称作MLE,但实际上这类岗位几乎不需要ML、DL的经验,所以不如归类到SDE来避免混淆。
对于心存好奇或刚刚进入Data Science领域的新同学来说,往往会存在一个常见的迷思:Data Science就是万金油,毕业后又能做DA,又能做DS,我的学长学姐还有做MLE、SDE进大厂的。但非常sorry,理想是美好的,现实是残酷的。
DS对口岗位的分化之大,使得多数找工的申请者只会专注于一类或者两类title。常见的组合包括:
- DA/DS
- DS/MLE
- MLE/RS/AS
- MLE/SDE
在了解工作分类之后,那么破除这条迷思的道理在这里就非常浅显了:对申请DA的朋友来说,往往不具备足够的ML和coding能力去申请MLE。而MLE/SDE的申请者,又为何要去考虑DA之类的岗位呢?DS所谓的"就业面广"、"胜任多种职位"完全是一个伪命题。就业面再广,毕业时也就找那几个岗位,和你又有什么关系?
所以对于任何想要学习Data Science专业,特别是转专业申请的同学来说,一个很重要的问题就是:
结合自己的背景和能力,需要尽早确定想要追求的岗位分类,并且针对性地做好准备和选择。
Data Scientist的核心能力 - Post GenAI时代
此部分的讨论将集中于Data Analyst,Product DS,和Data Scientist岗位;MLE和SWE将不纳入范畴。
Data Scientist的核心能力,特别是在GenAI的时代,是业务理解。诚然沟通,对数据的sense,信息处理的能力都非常重要,但这些都将服务于Data Scientist对业务的理解。业务知识、data的理解、institutional knowledge,这些本来就很重要的能力,随着GenAI的发展变得愈发关键。而这些对entry level Data Scientist都是非常不利的。
如果说在GenAI之前,DS可以凭借一些数据处理,统计或者可视化的能力换得一碗饭吃;那么GenAI特别是代码和数据处理能力的进展,让任何不够复杂的DS项目都很容易被AI改变生产逻辑。这并非意味着AI会消灭DS岗位,或者一个PM或者SDE就会借助AI取代DS(虽然确实有在发生),但GenAI工具可以极大程度上解放senior DS的能力并且削减对entry level Data Scientist的需求。比如对一个dataframe的处理和可视化,通过GenAI在几秒钟内就可以替代一个junior一两天的工作,Data Scientist的工作往往不需要高复杂度的代码库和产品长期的维护性,这对Data Scientist的工作要远早于SDE。这意味着Data Scientist的工作会更容易被挤压。
Data Science教育的局限
用一段话来总结:Data Science的相关项目,已经完全不足以提供课程设计和学科深度来支持学生获得机器学习为主的相关岗位;而相关项目并不低的bar+对机器学习和CS相关的涉猎,如果期望学生只获得一份纯data analysis的工作,那么DS项目已经成为一个性价比很低的选择。
博主这里并非厚此薄彼ML入脑觉得算法高人一等。但业内SDE和MLE的薪资确实高于Data相关的工作,若学生有着可以去读CS的三维去读DS,难道不是应该说一句性价比低吗?
在2016-2018年左右,开设DS项目的学校还算不上多,接受过完整DS、ML科班训练的candidate还是稀有动物。会传统的ML算法,对深度学习有一定的了解,在当时或许就能找到一份不错的工作。而Deep Learning,乃至目前LLM全面take over,其实极大程度上消灭了Data Science专业存在的意义。
在DS项目常见的设计构想中,概统、Database、数据结构/算法、ML作为必修,辅以几门选修课的设计,足以让学生毕业后找到一份使用机器学习的工作。然而DL的全面发展,使得"左会统计分析,右能机器学习"的美好期望,已经全面落后于业界,特别是tech行业的实际需求。
近年来AI领域的三大支柱无非是CV,NLP,搜广推,最近几年又多了GenAI。但这几大和DS教育又是何种关系呢?
多数项目至今不会把Deep Learning列为必修,传统的NLP语言学模型就能教半学期,在校内可以接触到分布式计算的DS项目又有几个?DS学生相对羸弱的CS能力,更是越来越难以应付tech大厂的需求和面试。
博主对Data Science学生的建议
高不成低不就的DS学生,如果按部就班其实只有三条路:
- 读PhD或者运气好,实力真的强,卷进大厂做RS、AS
- 要么退而求其次进入基建缺乏的小厂或者传统行业
- 要么选择几乎不需要ML能力的、名为DS实为DA的类似岗位
那么我的问题是,这样的DS教育存在的意义是什么?为什么不选择统计或者CS?
破局之法:
虽然整体赴美读书转tech的性价比在急剧下降、难度在急剧上升,甚至码农本身还有几天好日子过也说不准,但博主还是有几点想法抛砖引玉:
- 如果你不讨厌编程并且有能力,那么能转码就转码,CS总可以找MLE和Data Scientist工作,DS专业可真的未必。当你不知道选什么的时候,如果可以选更难更有挑战性的,那么一般意味着更多的选择和reward。
- 实习,实习,实习!当tech行情整体走弱时,公司都会更倾向(甚至只会)招聘有相关经验的人。即便是中国的实习,如果你有tech的经历对于找工作都会是非常大的帮助。而且一份实习往往会带来更多的实习,所以一定要尽早布局实习。
- 尽早了解找工作的流程和岗位需求,不要只局限于系统课程。
- (非常宽泛的建议)如果家里有矿,确实可以考虑留在国内或者港新澳洲的机会然后回国,留美转码转data的性价比已经不同往日了。
写在最后
从还是NG时写下第一版到今天,博主自己也经历了身份的转变和工作的洗礼。但博主欣慰的是,此前贴子所言来自于百分百真实的感悟总结,在几年后也确实经受住了时间考验——多数观点至今仍然成立,也并没有被增长的经验打脸。但话说回来,这些看法终归是一家之言,有什么不足之处,还希望和各位读者探讨。
最后,若有哪位大佬觉得写的不错,本人open to MLE工作,搜推广方向。若有内推感谢不尽。
