十年前,分析师会将分析审核过的数据分享给使用数据的工作人员。现在,企业依靠数据运行,每天都有自动化流程、机器学习模型和成百上千的员工在使用数据。

目前,随着人工智能的突飞猛进,数据领域呈现爆炸式增长。公司正在大力投资数据和数据基础设施,将数据用于业务中,无论是分析还是大型语言模型,都为业务的不同部分或面向客户的体验提供了动力。

但也很容易被过度的营销所干扰,从而阻碍进步。“数据科学家就像是一个没有明确定义的职位描述。”Ingo Mierswa 博士说。他的理由是:“软件工程师为程序编写代码。如果你从事的是活动营销,那么很明显,你将为你的组织开展营销活动。但对于数据科学家来说,这个人究竟是做什么的,往往不是很清楚。”

这个人是否把大部分时间都放在了解业务、识别更多用例以及将这些用例和业务问题映射到分析方法上?重要的是,这个人是否真正坐下来处理脏数据,以更好的形式创建数据——这更接近于数据工程。或者,他们可能只专注于机器学习模型并对其进行优化,或者将这些模型集成到其他业务应用程序中。

这个人要做什么?也许根本不涉及机器学习,在这种情况下,这个角色更像是传统的数据分析师。

Mierswa和两位著名的数据科学领袖分别为招聘决策者和寻找机会的数据科学家分享了他们的见解。

保持开放的心态

“数据科学家可以做所有这些事情,但并不是每个数据科学家都能胜任所有这些事情,”Mierswa阐述道:“当有人来找我说:'嘿,英戈,我需要一名数据科学家'时,我首先会问:'你为什么需要一名数据科学家?你想要解决的问题到底是什么?你有哪些具体需求?比如你认为你可能需要的东西——让我们实际谈谈这是否真的适合你?我发现有趣的一点是,很多人都会掉进这个陷阱,认为他们会在所有事情上都使用机器学习;但由于种种原因,这通常是不正确的。所以,如果你确定了需要解决的任务,你也就能在这个过程中推导出你需要的技能。在这个阶段,当我明确提出这些要求时,实际上就是在说明我是否在招聘一名数据科学家。这些细节将成为职位描述的一部分,对于根据这些要素评估员工至关重要。”基于这一点,他说,“在招聘时,我会进行相当全面的面试。”

与其他求职面试一样,面试过程分为多个阶段,但只有技术评估的分量更重,因为它更接近数据科学家的实际工作。“我更看重对概念的理解、沟通技巧,以及这位数据科学家是否能真正解决业务问题并实现端到端,”Mierswa 阐述道。“但大多数人把事情搞混了——他们一听到数据科学,就认为自己可以整天玩弄数据,寻找有趣的东西,”他劝诫道。“不,你不能这样做。这不是数据科学家的特征”。

“这需要更深思熟虑,以便清楚地思考特定的问题。如果你需要端到端解决方案,这并不意味着数据科学家就是提供所有解决方案的人,而是能够帮助你朝着正确方向前进的人。”考虑到这一点,他说,“当我们进行技术评估时,我觉得更注重会话技能、分析思维、批判性思维以及对数据科学概念的理解。”

寻找思维能力

当某件事情处于热门阶段时,我们会神奇地遇到炒作周期,即某些技能或工具被热捧为不可或缺,鼓励人们缩小技能差距。米尔斯瓦驳斥了这种说法,他指出:“事实上,数据科学家在大多数情况下并不需要编程技能。但假设我要招聘的50位数据科学家中,有一位是真正的编码数据科学家,那么这个人就必须具备很强的编程技能,此外还要具备其他所有技能--沟通技能、批判性思维、分析思维等。”

“如果你有很强的Python技能,有一定的经验,还是一名优秀的软件工程师,那就再好不过了。但好消息是,这只是20分之一,其他49位数据科学家并不需要任何Python技能。”他幽默地反驳道:“看来你在建立数据科学组织时,认为自己需要一直使用和编写代码。如果你为同一个问题编写了两次代码,那么你就没有高效地解决问题,因为数据科学中真正的解决问题意味着创建可重复使用而非重复的解决方案。”

米尔斯瓦说,我总是喜欢那些对数据库有很好理解的人,一些基本的SQL知识总是有帮助的,因为这是你的数据所在。事实上,我也喜欢与那些拥有很强的Excel、PowerPoint和其他演示技能的人共事。为什么呢?因为尽管有些人可能不喜欢Excel,但在大多数情况下,这将是您分享结果的格式。

“面对现实吧,Excel仍然是全球使用最广泛的分析工具之一。”米尔斯瓦说:“就我们的具体情况而言,我们一直在寻找具备这些技能的人才,同时还要有工作流程思维能力,因为这才是数据科学的最终目的。你会不会编程并不重要,重要的是你要能够组织自己的思维。这事关思维能力,现在我正在做这件事,根据结果,我将进行下一步。现在我又循环了一遍……”这就是工作流思维的定义。这是一种数学直觉,就像你拥有理解算法人的思维方式,但你不需要拥有真正把算法写成代码的技术技能。

“工作流思维是您取得成功所需的技术技能。如果你能编写一些Python代码并构建ML工作流,那也总是件好事。但是,如果你需要的话,你可以学习这些,而其他类型的思维流派则是你必须掌握的。”他说:“我不会投入多年的时间来改变你的思维方式,但我很乐意为你投资,给你正确的工具,并培训你使用这些工具。”

如果不重视人工智能,那就大错特错了。这是数据团队的当务之急,因为生成式人工智能将改变一切。“如果你还不熟悉现在的情况,也不知道如何真正使用大型语言模型,那么你就必须立即加快速度,”米尔斯瓦鼓励每一位有抱负的数据科学家。“抽出一些时间,甚至是个人项目,学习数据科学。学习数据科学用正确的方法——用黑客的方式来掌握一般的方法,以防你还没有掌握。”

关注数据形式

米尔斯瓦的乐观精神主要来自于他多年的经验。十多年前,他创建了无代码数据科学平台AltairRapidMiner,他的贡献影响了业界无代码数据科学和机器学习功能的采用和实施。这也是他看好这一行业的部分原因。“如果你认为自己已经知道了,那你就进入了一个错误的领域。这对软件工程师来说也是如此,但在我看来,对数据科学家来说,”他明确表示,“这个观点更加正确,也更为关键,因为在我们这个领域,事情变化得非常快”。

如果你刚刚开始自己的职业生涯,你需要对学习新事物充满渴望。他敦促道,“如果你想成为一名科学家,就去大学工作。不要去企业工作,因为对于大多数企业来说,我们没有足够的空间容纳研究人员”。

还需要注意的是,“数据科学家”这一职称通常被广泛使用。但是,“数据科学家是一份时髦的工作”这一炒作背后赤裸裸的事实是,教科书与现实之间存在着一道复杂的大陆鸿沟。在学术领域的学习经历中,经常会遇到条理清晰、结构严谨的数据,而现实世界中的行业数据却可能杂乱无章、缺乏条理。

瓦伦-曼达拉普保险科技领域的高级数据科学家说:“我看到许多求职者仅仅依靠职位描述就产生了误解,这些职位描述大多是通用的,有些求职者还出于被迫做出了错误的决定,希望能够改变职业生涯。”他曾聘用过不同级别的数据科学家,他分享说:“我有幸在人工智能的最前沿工作,看到了底层科学与可能实现的艺术之间的鲜明对比。对于数据科学家来说,无论是在公司内部,还是在团队内部,从来没有放之四海而皆准的流程。”

“我们解决问题,”他分享道,“只有在实践中,与有竞争力的人一起工作,我们才能确定基本要求,这对数据团队了解如何解决问题至关重要,否则我们就会因为雇用了错误的候选人而使问题恶化。”

“为此,我在面试时,”他继续说,“我不想总是先谈很多技术问题,而是要扫描他们的数据科学组合。我反而想看看他们在主业或通过对项目的贡献产生了什么影响。”

曼达拉普在跟随米尔斯瓦的过程中也指出了近视方法的问题,因为每个团队都有其独特的要求。一个团队可能在潜心研究市场营销方面的机器学习,而另一个团队则在开发人工智能驱动的产品。即使在同一个团队中,角色也可能大相径庭,一位数据科学家可能研究线性ML模型,而另一位则负责动态自适应模型。

在招聘信息中,总会有一些噪音,而这些区别并不总是很明显。“必须认识到,招聘经理和数据科学团队应该准确地阐明这些需求,”他还强调说。“任何求职面试都是求职者展示其数据科学技能的绝佳机会,但同时也是招聘经理确保该职位符合其期望和职业目标的重要责任。”

关键考虑因素

当我们问及如何培养和留住数据科学人才时,技术研究所数据科学高级主任Ravindra Patil博士,分享了他对领导者如何寻找和聘用合适的数据科学人才的见解。他详细阐述了自己在面试候选人时所看重的以下特质。

用数据科学解决方案解决业务问题:要录用应聘者,我必须相信他们能够通过数据驱动的解决方案解决具体的业务挑战。在面试中,应聘者应能描述他们如何应用先进的数据科学技术来解决行业和业务问题,并解释他们的贡献如何改进了运营流程和决策。

将人工智能模型与领域专业知识相结合:优质数据科学家必须具备的一个重要特质是领域专长。他们了解行业趋势、痛点和企业目标,能够战略性地思考如何使用自己的技术技能。拥有领域知识的数据科学家可以帮助创建人工智能模型,以解决现实世界中的问题,实现任务自动化,提高运营效率,并直接影响业务决策。由于业务正在加速发展,客户的期望值也在不断提高,所以他们能够以最快的速度完成这项工作。

在初级职位中使用无代码/低代码工具:如果要招聘入门级数据科学和人工智能职位,我会考察应聘者在无代码和低代码平台方面的经验。这些工具能让编码经验有限的个人更轻松地构建和部署人工智能解决方案。但对于复杂的项目,应聘者需要掌握传统的编码技能,以确保解决方案的可靠性、可扩展性和可维护性。

利用生成式人工智能进行快速实验:生成式人工智能现在是每个人的愿望清单中的首要任务。掌握并了解 LLM、RAG内部运作和多模态RAG的候选人非常受欢迎。他们甚至在利用先进的人工智能解决方案开发成本优化解决方案方面发挥着重要作用。

在整个企业内扩展数据:大规模解决数据问题是数据科学家必须掌握的另一项关键技能,同时他们还必须具备利用增强技术巧妙应对数据挑战的能力。为了在企业内部实现数据民主化,他们必须有效地处理不断增长的数据量,整合结构化和非结构化数据,与工程团队密切合作,采用或开发用于洞察的尖端工具,确保数据的准确性,并解决数据稀疏的问题。这些能力使团队能够自信地做出明智的决策。

原文标题:How (and when?) to hire a data scientist

原文作者:Saqib Jan