77百科网
当前位置: 首页 游戏攻略

数据科学家怎么修炼(十步教你成为数据科学家)

时间:2023-05-14 作者: 小编 阅读量: 2 栏目名: 游戏攻略

十步教你成为数据科学家作者|RahulAgarwal译者|弯月,责编|伍杏玲以下为译文:在大学里,我的专业是机械工程师,所以毕业后我进入了钢铁行业我每天都穿着很重的钢靴和塑料头盔,在高炉和轧钢机周围冒险虽说我们有一定的安全。

作者 | Rahul Agarwal

译者 | 弯月,责编 | 伍杏玲

以下为译文:

在大学里,我的专业是机械工程师,所以毕业后我进入了钢铁行业。

我每天都穿着很重的钢靴和塑料头盔,在高炉和轧钢机周围冒险。虽说我们有一定的安全措施,但我知道一旦发生意外,谁都救不了我。或许跑鞋能帮忙,但头盔嘛,在1370摄氏度下连钢都会化成水。

所以我一直处于恐惧状态,我意识到这份工作并不适合我,因此我制定了目标:2011年进入分析和数据科学领域。从那时起,大规模在线开放课程就成了我学习新知识的首选途径,当然后来我也参加了很多这样的课程,好坏参半。

2020年,随着数据科学领域如此快速的变化,我们并不缺乏学习数据科学的资源。但初学者最常遇到一个问题:应该从什么地方下手,以及学什么呢?互联网上有很多资源,也是好坏参半。

Barry Schwartz曾在《选择的悖论》(THE PARADOX OF CHOICE: WHY MORE IS LESS)一书中指出,消除消费者的选择可以大大减少购物者的焦虑感。数据科学课程也是如此。

因此,文本的目的就是为各位感到迷茫的新手提供建议,并为你们的数据科学之旅指明方向。

Python 编程

首先,你需要学习一种编程语言。密歇根大学的以下课讲解如何使用Python以及创建自己的应用程序。

Python 3 Programming Specialization:

https://www.coursera.org/specializations/python-3-programming?action=enroll&ranEAID=lVarvwc5BD0&ranMID=40328&ranSiteID=lVarvwc5BD0-lPz4qOVNorxVbCwvw9KrQA&siteID=lVarvwc5BD0-lPz4qOVNorxVbCwvw9KrQA&utm_campaign=lVarvwc5BD0&utm_content=2&utm_medium=partners&utm_source=linkshare

在这门课程中,你可以学习到编程的基础知识(变量、条件语句以及循环语句等),还可以学习一些中级知识,例如关键字参数、列表推导、lambda表达式和类继承。

数据科学

接下来,我们需要先了解一下机器学习。

密歇根大学以下课程讲解了现代机器学习的入门知识。即便没有掌握所有知识,你也可以利用这些工具构建模型。

Applied Data Science with Python Specialization:https://www.coursera.org/specializations/data-science-python?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-5xCr9hsFao15_9pstk.4OA&siteID=lVarvwc5BD0-5xCr9hsFao15_9pstk.4OA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD

这门专业课程的面向对象是拥有基本Python或编程背景,并希望通过流行python工具包(例如pandas、matplotlib、scikit-learn、nltk 以及 networkx )应用统计、机器学习、信息可视化、文本分析和社交网络分析技术来深入了解数据。

机器学习理论与基础

完成上述课程之后,你就能成功地入门了。

恭喜你!你对数据科学有了基本了解,而且还知道如何实现。

但是,你还没有完全理解这些模型背后的数学知识。

你需要了解clf.fit背后的细节。如果你不了解模型背后的数学知识,那么还算不上一名数学科学家。

如下是斯坦福大学提供的机器学习课程,其中包含了许多机器学习算法背后的数学知识。

Machine Learning:

https://www.coursera.org/learn/machine-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-btd7XBdF681VKxRe2H_Oyg&siteID=lVarvwc5BD0-btd7XBdF681VKxRe2H_Oyg&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0&source=post_page---------------------------&ranMID=40328&ranEAID=je6NUbpObpQ&ranSiteID=je6NUbpObpQ-dEliPy0W03upl5lVg_ACYw&siteID=je6NUbpObpQ-dEliPy0W03upl5lVg_ACYw&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=je6NUbpObpQ

我认为这是一门你必须上的课程,因为这门课程激发了我进入该领域的兴趣,而且Andrew Ng是一位很了不起的讲师。而且,这也是我学习的第一门课程。

这门课程几乎包含了机器学习的所有内容:回归、分类、异常检测、推荐系统、神经网络以及很多出色的建议。

学习统计推断

这门推理统计的课程由杜克大学的Çetinkaya-Rundel教授。这是最简单的入门课程。

Inferential Statistics:https://www.coursera.org/learn/inferential-statistics-intro?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&siteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

Çetinkaya-Rundel是一位了不起的讲师,她很好地解释了统计推断的基础知识,这也是一门必修课。

你将在这门课程中了解数值和分类数据的假设检验、置信区间和统计推断方法。

学习基础的SQL知识

虽然创建模型并提出不同的假设很让人有成就感,但数据的处理也不可轻视。

在ETL和数据准备任务中,SQL无处不在,因此每个人都应该了解基础的SQL知识。

此外,SQL已成为Apache Spark等大数据工具的标准。如下加州大学戴维斯分校的课程将为你讲授SQL的专业知识以及如何利用SQL进行分布式计算。

Learn SQL Basics for Data Science Specialization:

https://www.coursera.org/specializations/learn-sql-basics-data-science?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-mBEzDIHx4TXzEZrykss6xQ&siteID=lVarvwc5BD0-mBEzDIHx4TXzEZrykss6xQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:通过数据科学应用程序中的4个难度逐渐增加的SQL项目,学习SQL的基础知识、数据整理、SQL分析、AB测试、使用Apache Spark进行分布式计算等主题。

高级机器学习

上述我们学习的知识都非常简单(你可能有不同的看法),学习材料都是现成的,用到的数学知识也非常有限。但这些知识可以为下一步打好基础。下面是一门由顶级的Kaggle机器学习从业者和CERN科学家讲授的高级机器学习课程,其中讲述了许多难度非常高的概念,可以带领你了解机器过去的工作方式以及机器学习世界最新的发展。

Advanced Machine Learning Specialization:

https://www.coursera.org/specializations/aml?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-hwTRi7XT6lsOWS0g2lGNcA&siteID=lVarvwc5BD0-hwTRi7XT6lsOWS0g2lGNcA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:这门课程介绍了深度学习、强化学习、自然语言理解、计算机视觉和贝叶斯方法。顶尖的Kaggle机器学习实践者和CERN科学家将在课程中分享他们解决现实问题经验,并帮助你填补理论与实践的空白。

深度学习

下面这门深度学习专业课程的含金量非常高。

Deep Learning Specialization:

https://www.coursera.org/specializations/deep-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-m3SBadPJeg1Z1rWVng39OQ&siteID=lVarvwc5BD0-m3SBadPJeg1Z1rWVng39OQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

讲师Andrew Ng以非常浅显易懂的方式解释了难度非常高的概念。

课程简介:了解深度学习的基础知识,了解如何构建神经网络,并学习如何领导机器学习项目走向成功。您将了解卷积网络、循环神经网络(RNN)、长短期记忆网络(LSTM)、Adam、Dropout、批标准化,Xavier/He初始化等等。此外,你还将深入医疗保健、自动驾驶、手语阅读、音乐生成和自然语言处理等案例研究。

Pytorch

我通常从不提倡学习工具,但是在这里我要推荐Pytorch。原因是它不可思议且非常重要,如果你想了解Pytorch,就需要阅读许多近期研究论文中的代码。对于深度学习领域的研究人员来说,Pytorch已成为默认的编程语言,它会让我们受益匪浅。

由IBM提供的课程——Deep Neural Networks with PyTorch

https://www.coursera.org/learn/deep-neural-networks-with-pytorch?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-qSeTzSahS03W9YVHnWT_QA&siteID=lVarvwc5BD0-qSeTzSahS03W9YVHnWT_QA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:该课程首先会介绍Pytorch的张量和自动微分软件包。每个章节都会涵盖不同的模型,这些模型从线性回归、逻辑回归/softmax回归等基础知识入手。其次是前馈深度神经网络、不同的激活函数、标准化以及Dropout层的作用。然后还会介绍卷积神经网络和转移学习。最后还会介绍其他几种深度学习方法。

AWS机器学习入门

构建出色的机器学习系统需要考虑很多因素。但是作为数据科学家,通常我们只担心项目的某些部分。

但是,我们是否考虑过在建立好模型后,如何部署模型?

我见过很多机器学习项目,但其中许多注定都要失败,因为从一开始这些项目就没有制定生产计划。拥有一个良好的平台并了解如何部署机器学习应用程序,这一点在现实世界中至关重要。下面这门AWS的课程介绍了如何利用AWS实现机器学习的应用程序。

Getting Started with AWS Machine Learning:

https://www.coursera.org/learn/aws-machine-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-Kfb17yr.B2kcW5gmdqpYjw&siteID=lVarvwc5BD0-Kfb17yr.B2kcW5gmdqpYjw&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

你将在这门课程中学习:

一、如何使用带有内置的算法和Jupyter Notebook实例的 Amazon SageMaker 来构建、训练和部署模型。

二、如何使用亚马逊的AI服务(如Amazon Comprehend、Amazon Rekognition、Amazon Translate等)来构建智能应用程序。

数据结构和算法

算法和数据结构是数据科学不可或缺的一部分。尽管大多数数据科学家都没有学习算法和数据结构,但它们都是必不可少的。

许多公司在招聘数据科学家的面试过程中,都会询问数据结构和算法。

Data Structures and Algorithms Specialization:

https://www.coursera.org/specializations/data-structures-algorithms?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-GFspWabzEy8Lf9dKWHbYyg&siteID=lVarvwc5BD0-GFspWabzEy8Lf9dKWHbYyg&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

你将在本课程中学习解决各种计算问题的算法,并用你喜欢的编程语言实现大约100种算法编程题。本课程提供的算法题非常接近你下一次面试可能遇到的编程题。

原文链接:https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701

作者:Rahul Agarwal,数据科学家@WalmartLabs。

本文为 CSDN 翻译,转载请注明来源出处。

    推荐阅读
  • 一代君主武则天(一代女皇武则天)

    一代女皇武则天纵观中国历史五千年,五千年的长河又留下了多少灿烂辉煌的历史,五千年的历史给我们留下多少鲜为人知的故事、人物自秦始皇结束春秋时期五百年以来大分裂局面、统一六国后,建立起中央集权的封建王朝,到清朝灭亡,二。

  • 超神学院之雄兵连下一部是什么(超神学院之雄兵连的介绍)

    超神学院之雄兵连的介绍超神学院之雄兵连下一部是雄兵连2诸神降临《雄兵连》是由动画系列作品,是中国首部长篇科幻军事题材的3D热血动漫《雄兵连》是在《超神学院》系列动画的基础上重新制作了剧情《雄兵连》于2017年6月1日播出。

  • 绿豆米仁汤的做法(绿豆米仁汤如何做)

    绿豆米仁汤如何做原料:薏仁、绿豆做法:薏仁及绿豆洗净后,用清水浸泡隔夜;薏仁加3杯水放入锅内,用大火煮沸;改用小火煮半小时,再放入绿豆煮至熟烂;最后加入马齿苋和少许冰糖调味即可特点是去火清热止渴,原料易得,做法简单可。

  • 哈佛大学的入学要求(哈佛大学的入学要求有哪些?)

    预科申请条件:语言条件:雅思成绩在5.5分以上或者托福成绩在80分以上;,我来为大家讲解一下关于哈佛大学的入学要求?其他一些学院要求申请者雅思分数达到7.0,托福成绩达到100分;标准化成绩:申请商学院需要提供GMAT成绩分数在730分以上,申请法学院LAST成绩在160分。申请哈佛大学不同课程,对于学生的要求也不同,如果申请该校的本科课程就需要满足以上本科的要求。

  • 红参液空腹还是饭后喝(红参液什么时候喝)

    红参液什么时候喝红参作为补品,在饭前服用效果好,比饭后服用应该效果好一些,就同时要注意不要吃过于辛辣刺激性食物,注意饮食的清淡为好红参是中药的一种,属伞形目、五加科植物红参是人参的熟用品,有能大补元气,复脉固脱,益气。

  • 斛珠夫人在哪个台播出(斛珠夫人播出的平台)

    《斛珠夫人》电视剧是由金沙执导,杨幂、陈伟霆领衔主演,徐开骋、陈小纭、王森、袁雨萱主演的东方传奇言情古装剧。方海市在与方诸经年的相处中产生情愫,而方诸却因对大徵和皇帝帝旭的守护使命无法回应。而后,方诸为保护海市被迫拆穿其女子身份,将其送到帝旭身边,并引发一系列纠葛。

  • 屠龙霸业如何交易装备(屠龙霸业装备交易方法)

    在屠龙霸业手游中,我们往往会碰见垃圾装备太多,自己的背包格不够用的情况,如果遇到这种情况我们应该怎么办呢?没关系,装备分析帮助你。屠龙霸业装备分解介绍:高级装备、垃圾装备自己不用了怎么办?在屠龙霸业手游中,分解装备不仅仅可以获得比卖商店更高的金币,还可以获得其他材料,比如强化所需要的道具等等。所以,在屠龙霸业手游中,所有的装备都是非常的重要,就算是分解白色品质的装备也会出符文石。

  • 月子发汗怎么发呢(为什么出月子要发汗)

    为什么出月子要发汗因生产的妇女在分娩的时候用尽全身力气身体里的各个关节和每个毛孔都已经打开!这个时候一定要发汗才能不让冷空气进入你的身体!如果不好好发汗冷空气进入也就是大家常说的月子病以后见到风和天气冷的时候就会全身酸。

  • 孩子不小心烫伤家长应该怎么做(孩子被烫伤处理不对无疑是)

    孩子被烫伤处理不对无疑是现在很多的家长对于预防宝宝烫伤这一点是非常的注意,而且自己平时也会非常的小心,不会让宝宝碰任何的高温物体,但如果一不小心宝宝烫伤的话应该怎么办呢?前段时间我就犯了这样一个错误,在给孩子冲奶粉的时候,本。

  • 河北瓷砖背胶哪个品牌好(2022年膏状瓷砖背胶有哪些品牌)

    笔者给出的建议是碱克背胶。因为碱克是国家高新技术企业,是背胶行业当之无愧的标杆企业,是膏状背胶行业标准的制定单位,是拥有5项背胶产品国家专利的企业。在整个行业内,碱克是是首个建立以博士为龙头的研发团队,并且建立独立标准化辅材实验室的企业。碱克膏状背胶示意图就凭碱克背胶在膏状背胶行业的地位荣誉,凭碱克背胶为整个背胶市场良性健康发展所做的贡献,选膏状背胶,一定非碱克莫属!