77百科网
当前位置: 首页 游戏攻略

数据科学家怎么修炼(十步教你成为数据科学家)

时间:2023-05-14 作者: 小编 阅读量: 6 栏目名: 游戏攻略

十步教你成为数据科学家作者|RahulAgarwal译者|弯月,责编|伍杏玲以下为译文:在大学里,我的专业是机械工程师,所以毕业后我进入了钢铁行业我每天都穿着很重的钢靴和塑料头盔,在高炉和轧钢机周围冒险虽说我们有一定的安全。

作者 | Rahul Agarwal

译者 | 弯月,责编 | 伍杏玲

以下为译文:

在大学里,我的专业是机械工程师,所以毕业后我进入了钢铁行业。

我每天都穿着很重的钢靴和塑料头盔,在高炉和轧钢机周围冒险。虽说我们有一定的安全措施,但我知道一旦发生意外,谁都救不了我。或许跑鞋能帮忙,但头盔嘛,在1370摄氏度下连钢都会化成水。

所以我一直处于恐惧状态,我意识到这份工作并不适合我,因此我制定了目标:2011年进入分析和数据科学领域。从那时起,大规模在线开放课程就成了我学习新知识的首选途径,当然后来我也参加了很多这样的课程,好坏参半。

2020年,随着数据科学领域如此快速的变化,我们并不缺乏学习数据科学的资源。但初学者最常遇到一个问题:应该从什么地方下手,以及学什么呢?互联网上有很多资源,也是好坏参半。

Barry Schwartz曾在《选择的悖论》(THE PARADOX OF CHOICE: WHY MORE IS LESS)一书中指出,消除消费者的选择可以大大减少购物者的焦虑感。数据科学课程也是如此。

因此,文本的目的就是为各位感到迷茫的新手提供建议,并为你们的数据科学之旅指明方向。

Python 编程

首先,你需要学习一种编程语言。密歇根大学的以下课讲解如何使用Python以及创建自己的应用程序。

Python 3 Programming Specialization:

https://www.coursera.org/specializations/python-3-programming?action=enroll&ranEAID=lVarvwc5BD0&ranMID=40328&ranSiteID=lVarvwc5BD0-lPz4qOVNorxVbCwvw9KrQA&siteID=lVarvwc5BD0-lPz4qOVNorxVbCwvw9KrQA&utm_campaign=lVarvwc5BD0&utm_content=2&utm_medium=partners&utm_source=linkshare

在这门课程中,你可以学习到编程的基础知识(变量、条件语句以及循环语句等),还可以学习一些中级知识,例如关键字参数、列表推导、lambda表达式和类继承。

数据科学

接下来,我们需要先了解一下机器学习。

密歇根大学以下课程讲解了现代机器学习的入门知识。即便没有掌握所有知识,你也可以利用这些工具构建模型。

Applied Data Science with Python Specialization:https://www.coursera.org/specializations/data-science-python?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-5xCr9hsFao15_9pstk.4OA&siteID=lVarvwc5BD0-5xCr9hsFao15_9pstk.4OA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD

这门专业课程的面向对象是拥有基本Python或编程背景,并希望通过流行python工具包(例如pandas、matplotlib、scikit-learn、nltk 以及 networkx )应用统计、机器学习、信息可视化、文本分析和社交网络分析技术来深入了解数据。

机器学习理论与基础

完成上述课程之后,你就能成功地入门了。

恭喜你!你对数据科学有了基本了解,而且还知道如何实现。

但是,你还没有完全理解这些模型背后的数学知识。

你需要了解clf.fit背后的细节。如果你不了解模型背后的数学知识,那么还算不上一名数学科学家。

如下是斯坦福大学提供的机器学习课程,其中包含了许多机器学习算法背后的数学知识。

Machine Learning:

https://www.coursera.org/learn/machine-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-btd7XBdF681VKxRe2H_Oyg&siteID=lVarvwc5BD0-btd7XBdF681VKxRe2H_Oyg&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0&source=post_page---------------------------&ranMID=40328&ranEAID=je6NUbpObpQ&ranSiteID=je6NUbpObpQ-dEliPy0W03upl5lVg_ACYw&siteID=je6NUbpObpQ-dEliPy0W03upl5lVg_ACYw&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=je6NUbpObpQ

我认为这是一门你必须上的课程,因为这门课程激发了我进入该领域的兴趣,而且Andrew Ng是一位很了不起的讲师。而且,这也是我学习的第一门课程。

这门课程几乎包含了机器学习的所有内容:回归、分类、异常检测、推荐系统、神经网络以及很多出色的建议。

学习统计推断

这门推理统计的课程由杜克大学的Çetinkaya-Rundel教授。这是最简单的入门课程。

Inferential Statistics:https://www.coursera.org/learn/inferential-statistics-intro?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&siteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

Çetinkaya-Rundel是一位了不起的讲师,她很好地解释了统计推断的基础知识,这也是一门必修课。

你将在这门课程中了解数值和分类数据的假设检验、置信区间和统计推断方法。

学习基础的SQL知识

虽然创建模型并提出不同的假设很让人有成就感,但数据的处理也不可轻视。

在ETL和数据准备任务中,SQL无处不在,因此每个人都应该了解基础的SQL知识。

此外,SQL已成为Apache Spark等大数据工具的标准。如下加州大学戴维斯分校的课程将为你讲授SQL的专业知识以及如何利用SQL进行分布式计算。

Learn SQL Basics for Data Science Specialization:

https://www.coursera.org/specializations/learn-sql-basics-data-science?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-mBEzDIHx4TXzEZrykss6xQ&siteID=lVarvwc5BD0-mBEzDIHx4TXzEZrykss6xQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:通过数据科学应用程序中的4个难度逐渐增加的SQL项目,学习SQL的基础知识、数据整理、SQL分析、AB测试、使用Apache Spark进行分布式计算等主题。

高级机器学习

上述我们学习的知识都非常简单(你可能有不同的看法),学习材料都是现成的,用到的数学知识也非常有限。但这些知识可以为下一步打好基础。下面是一门由顶级的Kaggle机器学习从业者和CERN科学家讲授的高级机器学习课程,其中讲述了许多难度非常高的概念,可以带领你了解机器过去的工作方式以及机器学习世界最新的发展。

Advanced Machine Learning Specialization:

https://www.coursera.org/specializations/aml?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-hwTRi7XT6lsOWS0g2lGNcA&siteID=lVarvwc5BD0-hwTRi7XT6lsOWS0g2lGNcA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:这门课程介绍了深度学习、强化学习、自然语言理解、计算机视觉和贝叶斯方法。顶尖的Kaggle机器学习实践者和CERN科学家将在课程中分享他们解决现实问题经验,并帮助你填补理论与实践的空白。

深度学习

下面这门深度学习专业课程的含金量非常高。

Deep Learning Specialization:

https://www.coursera.org/specializations/deep-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-m3SBadPJeg1Z1rWVng39OQ&siteID=lVarvwc5BD0-m3SBadPJeg1Z1rWVng39OQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

讲师Andrew Ng以非常浅显易懂的方式解释了难度非常高的概念。

课程简介:了解深度学习的基础知识,了解如何构建神经网络,并学习如何领导机器学习项目走向成功。您将了解卷积网络、循环神经网络(RNN)、长短期记忆网络(LSTM)、Adam、Dropout、批标准化,Xavier/He初始化等等。此外,你还将深入医疗保健、自动驾驶、手语阅读、音乐生成和自然语言处理等案例研究。

Pytorch

我通常从不提倡学习工具,但是在这里我要推荐Pytorch。原因是它不可思议且非常重要,如果你想了解Pytorch,就需要阅读许多近期研究论文中的代码。对于深度学习领域的研究人员来说,Pytorch已成为默认的编程语言,它会让我们受益匪浅。

由IBM提供的课程——Deep Neural Networks with PyTorch

https://www.coursera.org/learn/deep-neural-networks-with-pytorch?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-qSeTzSahS03W9YVHnWT_QA&siteID=lVarvwc5BD0-qSeTzSahS03W9YVHnWT_QA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:该课程首先会介绍Pytorch的张量和自动微分软件包。每个章节都会涵盖不同的模型,这些模型从线性回归、逻辑回归/softmax回归等基础知识入手。其次是前馈深度神经网络、不同的激活函数、标准化以及Dropout层的作用。然后还会介绍卷积神经网络和转移学习。最后还会介绍其他几种深度学习方法。

AWS机器学习入门

构建出色的机器学习系统需要考虑很多因素。但是作为数据科学家,通常我们只担心项目的某些部分。

但是,我们是否考虑过在建立好模型后,如何部署模型?

我见过很多机器学习项目,但其中许多注定都要失败,因为从一开始这些项目就没有制定生产计划。拥有一个良好的平台并了解如何部署机器学习应用程序,这一点在现实世界中至关重要。下面这门AWS的课程介绍了如何利用AWS实现机器学习的应用程序。

Getting Started with AWS Machine Learning:

https://www.coursera.org/learn/aws-machine-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-Kfb17yr.B2kcW5gmdqpYjw&siteID=lVarvwc5BD0-Kfb17yr.B2kcW5gmdqpYjw&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

你将在这门课程中学习:

一、如何使用带有内置的算法和Jupyter Notebook实例的 Amazon SageMaker 来构建、训练和部署模型。

二、如何使用亚马逊的AI服务(如Amazon Comprehend、Amazon Rekognition、Amazon Translate等)来构建智能应用程序。

数据结构和算法

算法和数据结构是数据科学不可或缺的一部分。尽管大多数数据科学家都没有学习算法和数据结构,但它们都是必不可少的。

许多公司在招聘数据科学家的面试过程中,都会询问数据结构和算法。

Data Structures and Algorithms Specialization:

https://www.coursera.org/specializations/data-structures-algorithms?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-GFspWabzEy8Lf9dKWHbYyg&siteID=lVarvwc5BD0-GFspWabzEy8Lf9dKWHbYyg&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

你将在本课程中学习解决各种计算问题的算法,并用你喜欢的编程语言实现大约100种算法编程题。本课程提供的算法题非常接近你下一次面试可能遇到的编程题。

原文链接:https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701

作者:Rahul Agarwal,数据科学家@WalmartLabs。

本文为 CSDN 翻译,转载请注明来源出处。

    推荐阅读
  • 电商怎么做crm(CRMEB客户管理电商营销系统)

    CRMEBCRMEB商城系统是基于ThinkPhp6.0Vue开发的一套新零售移动电商系统,CRMEB系统就是集客户关系管理营销电商系统,能够快速积累客户、会员数据分析、智能转化客户、有效提高销售、会员维护、网络营销的一款企业应用,包含商城、拼团、砍价、秒杀、优惠券、积分、分销等功能,更适合企业二次开发;目前开源在gitee上安装手动安装请把站点入口目录设置/publicphp环境要求为7.1及以

  • 篮球运球传球技巧(需要怎么练习)

    需要怎么练习胸前传球:从胸前传球快速、有效,是最常用的传球方式练习方法:双手持球的队员站位,面向要传球的队友,抬头、屈膝,手指张开,将球持在胸前,两肘微向外,伸臂向外推球时,向前跨出一步,球出手时手指向上、向前推。

  • 东北虎灭绝的原因(东北虎灭绝的原因是什么)

    东北虎灭绝的原因是什么因为东北虎的经济价值极高,肉和内脏可入药治疗多种慢性疾病,一只成年虎的价值相当于30多张黑貂皮,也只因为这样,东北虎遭到无情的捕杀虎的繁殖率也较低,它的寿命一般为25年左右,三四岁时性成熟,每年12月。

  • 张爱玲名言(张爱玲有什么名言)

    喜欢一个人,是不会有痛苦的爱一个人,也许有绵长的痛苦,但他给我的快乐,也是世上最大的快乐,今天小编就来聊一聊关于张爱玲名言?张爱玲名言喜欢一个人,是不会有痛苦的。对于三十岁以后的人来说,十年八年不过是指缝间的事,而对于年轻人而言,三年五年就可以是一生一世。爱情在动静之间,缘分在聚散之间。爱情是贪婪与恐惧的平衡,愈想占有,愈容易失去,爱是尽量占有和尽量避免失去之间的平衡。

  • 初中化学方程式及其反应现象(初三化学置换反应)

    置换反应是化学中四大基本反应类型之一,它是一种单质与一种化合物作用,生成另一种单质与另一种化合物的反应。

  • 华为手机音量键的隐藏功能(荣耀手机音量键隐藏功能大揭秘)

    即使对于一些老用户来说,其实也不敢百分百地保证说自己了解所用手机的全部功能。下面让我们一起来看看荣耀手机音量键都隐藏了哪些好用的功能。荣耀手机荣耀手机此外,当我们接到来电的时候,按音量上键或者下键可以进入静音状态。当我们平时开会的时候手机忘记调静音,来了电话可能会手忙脚乱,这个时候就可以直接点击音量按键进入静音状态,避免不必要的尴尬,非常方便。

  • 苹果手机怎么一次性删除通讯录(如何批量删除苹果手机通讯录)

    如何批量删除苹果手机通讯录如果你在iPhone上开通了iCloud的话,此时我们可以直接在电脑上打开iCloud官方页面在页面中用自己的AppleID来登录成功登录以后,请在页面中点击打开“通讯录”图标随后就可以看到我们手机中。

  • 健康布是什么面料(健康布的特点是什么)

    接下来我们就一起去研究一下吧!健康布是什么面料健康布是一面为棉,另一面为丝。健康布的特点是面料透气性强、手感柔软光滑、肤感好,是运动、休闲服饰、职业装的主要面料。可根据客人需要进行吸湿排汗、抗紫外线等功能性处理。

  • 每个孩子都应该读的8本书(美国孩子在读什么书)

    美国孩子在读什么书“阅读是一个自由的小世界,可以去探索超乎想象的空间和时间可以说,阅读是最具性价比的,提升个人认知的方法了”对于学生,正好可以利用暑期闲暇时间来提升英文能力,阅读量大,不论是考标化、文书还是面试,甚至是。

  • 酸奶是稀的好还是稠的好(稠的和稀的哪种好)

    稠的和稀的哪种好酸奶是很多人都喜爱的健康食品,优质的酸奶可以调节肠道菌群,促进消化,排出毒素,且热量不是很高,一些减肥爱好者常拿来代餐,但是常买酸奶的朋友会发现,市面上的酸奶有稠的有的却很稀,到底是稠的营养更好,稀的。