77百科网
当前位置: 首页 游戏攻略

数据科学家怎么修炼(十步教你成为数据科学家)

时间:2023-05-14 作者: 小编 阅读量: 5 栏目名: 游戏攻略

十步教你成为数据科学家作者|RahulAgarwal译者|弯月,责编|伍杏玲以下为译文:在大学里,我的专业是机械工程师,所以毕业后我进入了钢铁行业我每天都穿着很重的钢靴和塑料头盔,在高炉和轧钢机周围冒险虽说我们有一定的安全。

作者 | Rahul Agarwal

译者 | 弯月,责编 | 伍杏玲

以下为译文:

在大学里,我的专业是机械工程师,所以毕业后我进入了钢铁行业。

我每天都穿着很重的钢靴和塑料头盔,在高炉和轧钢机周围冒险。虽说我们有一定的安全措施,但我知道一旦发生意外,谁都救不了我。或许跑鞋能帮忙,但头盔嘛,在1370摄氏度下连钢都会化成水。

所以我一直处于恐惧状态,我意识到这份工作并不适合我,因此我制定了目标:2011年进入分析和数据科学领域。从那时起,大规模在线开放课程就成了我学习新知识的首选途径,当然后来我也参加了很多这样的课程,好坏参半。

2020年,随着数据科学领域如此快速的变化,我们并不缺乏学习数据科学的资源。但初学者最常遇到一个问题:应该从什么地方下手,以及学什么呢?互联网上有很多资源,也是好坏参半。

Barry Schwartz曾在《选择的悖论》(THE PARADOX OF CHOICE: WHY MORE IS LESS)一书中指出,消除消费者的选择可以大大减少购物者的焦虑感。数据科学课程也是如此。

因此,文本的目的就是为各位感到迷茫的新手提供建议,并为你们的数据科学之旅指明方向。

Python 编程

首先,你需要学习一种编程语言。密歇根大学的以下课讲解如何使用Python以及创建自己的应用程序。

Python 3 Programming Specialization:

https://www.coursera.org/specializations/python-3-programming?action=enroll&ranEAID=lVarvwc5BD0&ranMID=40328&ranSiteID=lVarvwc5BD0-lPz4qOVNorxVbCwvw9KrQA&siteID=lVarvwc5BD0-lPz4qOVNorxVbCwvw9KrQA&utm_campaign=lVarvwc5BD0&utm_content=2&utm_medium=partners&utm_source=linkshare

在这门课程中,你可以学习到编程的基础知识(变量、条件语句以及循环语句等),还可以学习一些中级知识,例如关键字参数、列表推导、lambda表达式和类继承。

数据科学

接下来,我们需要先了解一下机器学习。

密歇根大学以下课程讲解了现代机器学习的入门知识。即便没有掌握所有知识,你也可以利用这些工具构建模型。

Applied Data Science with Python Specialization:https://www.coursera.org/specializations/data-science-python?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-5xCr9hsFao15_9pstk.4OA&siteID=lVarvwc5BD0-5xCr9hsFao15_9pstk.4OA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD

这门专业课程的面向对象是拥有基本Python或编程背景,并希望通过流行python工具包(例如pandas、matplotlib、scikit-learn、nltk 以及 networkx )应用统计、机器学习、信息可视化、文本分析和社交网络分析技术来深入了解数据。

机器学习理论与基础

完成上述课程之后,你就能成功地入门了。

恭喜你!你对数据科学有了基本了解,而且还知道如何实现。

但是,你还没有完全理解这些模型背后的数学知识。

你需要了解clf.fit背后的细节。如果你不了解模型背后的数学知识,那么还算不上一名数学科学家。

如下是斯坦福大学提供的机器学习课程,其中包含了许多机器学习算法背后的数学知识。

Machine Learning:

https://www.coursera.org/learn/machine-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-btd7XBdF681VKxRe2H_Oyg&siteID=lVarvwc5BD0-btd7XBdF681VKxRe2H_Oyg&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0&source=post_page---------------------------&ranMID=40328&ranEAID=je6NUbpObpQ&ranSiteID=je6NUbpObpQ-dEliPy0W03upl5lVg_ACYw&siteID=je6NUbpObpQ-dEliPy0W03upl5lVg_ACYw&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=je6NUbpObpQ

我认为这是一门你必须上的课程,因为这门课程激发了我进入该领域的兴趣,而且Andrew Ng是一位很了不起的讲师。而且,这也是我学习的第一门课程。

这门课程几乎包含了机器学习的所有内容:回归、分类、异常检测、推荐系统、神经网络以及很多出色的建议。

学习统计推断

这门推理统计的课程由杜克大学的Çetinkaya-Rundel教授。这是最简单的入门课程。

Inferential Statistics:https://www.coursera.org/learn/inferential-statistics-intro?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&siteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

Çetinkaya-Rundel是一位了不起的讲师,她很好地解释了统计推断的基础知识,这也是一门必修课。

你将在这门课程中了解数值和分类数据的假设检验、置信区间和统计推断方法。

学习基础的SQL知识

虽然创建模型并提出不同的假设很让人有成就感,但数据的处理也不可轻视。

在ETL和数据准备任务中,SQL无处不在,因此每个人都应该了解基础的SQL知识。

此外,SQL已成为Apache Spark等大数据工具的标准。如下加州大学戴维斯分校的课程将为你讲授SQL的专业知识以及如何利用SQL进行分布式计算。

Learn SQL Basics for Data Science Specialization:

https://www.coursera.org/specializations/learn-sql-basics-data-science?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-mBEzDIHx4TXzEZrykss6xQ&siteID=lVarvwc5BD0-mBEzDIHx4TXzEZrykss6xQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:通过数据科学应用程序中的4个难度逐渐增加的SQL项目,学习SQL的基础知识、数据整理、SQL分析、AB测试、使用Apache Spark进行分布式计算等主题。

高级机器学习

上述我们学习的知识都非常简单(你可能有不同的看法),学习材料都是现成的,用到的数学知识也非常有限。但这些知识可以为下一步打好基础。下面是一门由顶级的Kaggle机器学习从业者和CERN科学家讲授的高级机器学习课程,其中讲述了许多难度非常高的概念,可以带领你了解机器过去的工作方式以及机器学习世界最新的发展。

Advanced Machine Learning Specialization:

https://www.coursera.org/specializations/aml?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-hwTRi7XT6lsOWS0g2lGNcA&siteID=lVarvwc5BD0-hwTRi7XT6lsOWS0g2lGNcA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:这门课程介绍了深度学习、强化学习、自然语言理解、计算机视觉和贝叶斯方法。顶尖的Kaggle机器学习实践者和CERN科学家将在课程中分享他们解决现实问题经验,并帮助你填补理论与实践的空白。

深度学习

下面这门深度学习专业课程的含金量非常高。

Deep Learning Specialization:

https://www.coursera.org/specializations/deep-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-m3SBadPJeg1Z1rWVng39OQ&siteID=lVarvwc5BD0-m3SBadPJeg1Z1rWVng39OQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

讲师Andrew Ng以非常浅显易懂的方式解释了难度非常高的概念。

课程简介:了解深度学习的基础知识,了解如何构建神经网络,并学习如何领导机器学习项目走向成功。您将了解卷积网络、循环神经网络(RNN)、长短期记忆网络(LSTM)、Adam、Dropout、批标准化,Xavier/He初始化等等。此外,你还将深入医疗保健、自动驾驶、手语阅读、音乐生成和自然语言处理等案例研究。

Pytorch

我通常从不提倡学习工具,但是在这里我要推荐Pytorch。原因是它不可思议且非常重要,如果你想了解Pytorch,就需要阅读许多近期研究论文中的代码。对于深度学习领域的研究人员来说,Pytorch已成为默认的编程语言,它会让我们受益匪浅。

由IBM提供的课程——Deep Neural Networks with PyTorch

https://www.coursera.org/learn/deep-neural-networks-with-pytorch?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-qSeTzSahS03W9YVHnWT_QA&siteID=lVarvwc5BD0-qSeTzSahS03W9YVHnWT_QA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:该课程首先会介绍Pytorch的张量和自动微分软件包。每个章节都会涵盖不同的模型,这些模型从线性回归、逻辑回归/softmax回归等基础知识入手。其次是前馈深度神经网络、不同的激活函数、标准化以及Dropout层的作用。然后还会介绍卷积神经网络和转移学习。最后还会介绍其他几种深度学习方法。

AWS机器学习入门

构建出色的机器学习系统需要考虑很多因素。但是作为数据科学家,通常我们只担心项目的某些部分。

但是,我们是否考虑过在建立好模型后,如何部署模型?

我见过很多机器学习项目,但其中许多注定都要失败,因为从一开始这些项目就没有制定生产计划。拥有一个良好的平台并了解如何部署机器学习应用程序,这一点在现实世界中至关重要。下面这门AWS的课程介绍了如何利用AWS实现机器学习的应用程序。

Getting Started with AWS Machine Learning:

https://www.coursera.org/learn/aws-machine-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-Kfb17yr.B2kcW5gmdqpYjw&siteID=lVarvwc5BD0-Kfb17yr.B2kcW5gmdqpYjw&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

你将在这门课程中学习:

一、如何使用带有内置的算法和Jupyter Notebook实例的 Amazon SageMaker 来构建、训练和部署模型。

二、如何使用亚马逊的AI服务(如Amazon Comprehend、Amazon Rekognition、Amazon Translate等)来构建智能应用程序。

数据结构和算法

算法和数据结构是数据科学不可或缺的一部分。尽管大多数数据科学家都没有学习算法和数据结构,但它们都是必不可少的。

许多公司在招聘数据科学家的面试过程中,都会询问数据结构和算法。

Data Structures and Algorithms Specialization:

https://www.coursera.org/specializations/data-structures-algorithms?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-GFspWabzEy8Lf9dKWHbYyg&siteID=lVarvwc5BD0-GFspWabzEy8Lf9dKWHbYyg&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

你将在本课程中学习解决各种计算问题的算法,并用你喜欢的编程语言实现大约100种算法编程题。本课程提供的算法题非常接近你下一次面试可能遇到的编程题。

原文链接:https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701

作者:Rahul Agarwal,数据科学家@WalmartLabs。

本文为 CSDN 翻译,转载请注明来源出处。

    推荐阅读
  • 槐角的功效与作用(槐角介绍)

    槐角的功效与作用槐角的功效与作用是清热泻火、凉血止血。属止血药下分类的凉血止血药。槐角落叶乔木,高达25米。树冠圆形,叶多而密,树皮棕灰色,粗糙纵裂内皮鲜黄色。夏季开花,顶生大型圆锥花序。萼钟状,具5小齿,疏被毛。荚果肉质,节荚之间紧缩成串珠状,黄绿色,无毛,不开裂。种子1~6粒,肾形,长约8毫米,棕黑色。花期7~8月,果期10~11月。

  • 工作心得体会感悟(今日感悟)

    工作心得体会感悟?下面内容希望能帮助到你,我们来一起看看吧!工作心得体会感悟#分享你的今日感悟#时光匆匆,今天上班也是忙碌的一天,很多事还没来得及做,一天就过去了,每一天遇到的人都要善待,因为遇见都是缘分,每一个现在,都要铭记,因为都是我们以后的记忆,一天的时光总是很短暂,不管多想身在其中,但时光还是会悄然离去,只是当太阳落下去时,我们可以欣慰的说,今天没有虚度光阴。

  • 醪糟发红什么原因(如何解决这一问题)

    如何解决这一问题发红原因:(1)接触了空气,产生了二次发酵,可以食用(2)如果确定酒药不存在红曲霉素的前提下,那么就是感染了其他的杂质细菌,只要不发酸,煮开后还是能食用的下次注意换别的牌子的酒药解决方法:(1)发酵的。

  • 一生之计在于勤文言文翻译(一生之计在于勤全文)

    治生之道,莫尚乎勤。言虽近而旨则远。无如人之常情,恶劳而好逸,甘食愉衣,玩日愒岁。以之为农,则不能深耕而易耨;以之为工,则不能计日而见功;以之为商,则不能乘时而趋利;以之为士,则不能笃志力行。夫天地之化,日新则不敝,故户枢不蠹,流水不腐,诚不欲其常安也。

  • 健康布是什么面料(健康布的特点是什么)

    接下来我们就一起去研究一下吧!健康布是什么面料健康布是一面为棉,另一面为丝。健康布的特点是面料透气性强、手感柔软光滑、肤感好,是运动、休闲服饰、职业装的主要面料。可根据客人需要进行吸湿排汗、抗紫外线等功能性处理。

  • 月子发汗怎么发呢(为什么出月子要发汗)

    为什么出月子要发汗因生产的妇女在分娩的时候用尽全身力气身体里的各个关节和每个毛孔都已经打开!这个时候一定要发汗才能不让冷空气进入你的身体!如果不好好发汗冷空气进入也就是大家常说的月子病以后见到风和天气冷的时候就会全身酸。

  • 壮观无比的银河系(全球这几个角落看到的银河)

    全球这几个角落看到的银河,。

  • l9有原厂脚垫吗(一副脚垫用三年)

    一副脚垫用三年理想L9的车友们开始挑脚垫了吗?有没有挑花了眼?以我使用理想ONE将近3年的经验告诉大家,原厂脚垫的品质非常好,如果不是对某类脚垫有特别的使用习惯,理想L9的原厂脚垫能满足你的需求*本文为理想汽车用户。

  • 海参杂蔬汤如何做(做海参杂蔬汤的窍门)

    做海参杂蔬汤的窍门海参、黄瓜、秋葵、金针菇、香葱、香菜做法:海参泡好,切断,黄瓜去皮切片,金针菇切小段,秋葵切断,葱和香菜切末,锅放水,先放海参和黄瓜煮一会放秋葵,最后放金针菇,放入盐,鸡精,十三香粉,生抽,耗油调味,。

  • 一般二元二次方程曲线(对二次曲线系方程用法的一点点补充)

    对二次曲线系方程用法的一点点补充先说明一下,二次曲线系在高考大题中极大几率是不给分的,该知识点在高中阶段只能作为参考扩展资料使用,解析几何在高考中的难度本来就逐年递减,暴力运算加适当的技巧即可,切不可本末倒置,之前有过两期关于曲线系。