77百科网
当前位置: 首页 游戏攻略

数据科学家怎么修炼(十步教你成为数据科学家)

时间:2023-05-14 作者: 小编 阅读量: 5 栏目名: 游戏攻略

十步教你成为数据科学家作者|RahulAgarwal译者|弯月,责编|伍杏玲以下为译文:在大学里,我的专业是机械工程师,所以毕业后我进入了钢铁行业我每天都穿着很重的钢靴和塑料头盔,在高炉和轧钢机周围冒险虽说我们有一定的安全。

作者 | Rahul Agarwal

译者 | 弯月,责编 | 伍杏玲

以下为译文:

在大学里,我的专业是机械工程师,所以毕业后我进入了钢铁行业。

我每天都穿着很重的钢靴和塑料头盔,在高炉和轧钢机周围冒险。虽说我们有一定的安全措施,但我知道一旦发生意外,谁都救不了我。或许跑鞋能帮忙,但头盔嘛,在1370摄氏度下连钢都会化成水。

所以我一直处于恐惧状态,我意识到这份工作并不适合我,因此我制定了目标:2011年进入分析和数据科学领域。从那时起,大规模在线开放课程就成了我学习新知识的首选途径,当然后来我也参加了很多这样的课程,好坏参半。

2020年,随着数据科学领域如此快速的变化,我们并不缺乏学习数据科学的资源。但初学者最常遇到一个问题:应该从什么地方下手,以及学什么呢?互联网上有很多资源,也是好坏参半。

Barry Schwartz曾在《选择的悖论》(THE PARADOX OF CHOICE: WHY MORE IS LESS)一书中指出,消除消费者的选择可以大大减少购物者的焦虑感。数据科学课程也是如此。

因此,文本的目的就是为各位感到迷茫的新手提供建议,并为你们的数据科学之旅指明方向。

Python 编程

首先,你需要学习一种编程语言。密歇根大学的以下课讲解如何使用Python以及创建自己的应用程序。

Python 3 Programming Specialization:

https://www.coursera.org/specializations/python-3-programming?action=enroll&ranEAID=lVarvwc5BD0&ranMID=40328&ranSiteID=lVarvwc5BD0-lPz4qOVNorxVbCwvw9KrQA&siteID=lVarvwc5BD0-lPz4qOVNorxVbCwvw9KrQA&utm_campaign=lVarvwc5BD0&utm_content=2&utm_medium=partners&utm_source=linkshare

在这门课程中,你可以学习到编程的基础知识(变量、条件语句以及循环语句等),还可以学习一些中级知识,例如关键字参数、列表推导、lambda表达式和类继承。

数据科学

接下来,我们需要先了解一下机器学习。

密歇根大学以下课程讲解了现代机器学习的入门知识。即便没有掌握所有知识,你也可以利用这些工具构建模型。

Applied Data Science with Python Specialization:https://www.coursera.org/specializations/data-science-python?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-5xCr9hsFao15_9pstk.4OA&siteID=lVarvwc5BD0-5xCr9hsFao15_9pstk.4OA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD

这门专业课程的面向对象是拥有基本Python或编程背景,并希望通过流行python工具包(例如pandas、matplotlib、scikit-learn、nltk 以及 networkx )应用统计、机器学习、信息可视化、文本分析和社交网络分析技术来深入了解数据。

机器学习理论与基础

完成上述课程之后,你就能成功地入门了。

恭喜你!你对数据科学有了基本了解,而且还知道如何实现。

但是,你还没有完全理解这些模型背后的数学知识。

你需要了解clf.fit背后的细节。如果你不了解模型背后的数学知识,那么还算不上一名数学科学家。

如下是斯坦福大学提供的机器学习课程,其中包含了许多机器学习算法背后的数学知识。

Machine Learning:

https://www.coursera.org/learn/machine-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-btd7XBdF681VKxRe2H_Oyg&siteID=lVarvwc5BD0-btd7XBdF681VKxRe2H_Oyg&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0&source=post_page---------------------------&ranMID=40328&ranEAID=je6NUbpObpQ&ranSiteID=je6NUbpObpQ-dEliPy0W03upl5lVg_ACYw&siteID=je6NUbpObpQ-dEliPy0W03upl5lVg_ACYw&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=je6NUbpObpQ

我认为这是一门你必须上的课程,因为这门课程激发了我进入该领域的兴趣,而且Andrew Ng是一位很了不起的讲师。而且,这也是我学习的第一门课程。

这门课程几乎包含了机器学习的所有内容:回归、分类、异常检测、推荐系统、神经网络以及很多出色的建议。

学习统计推断

这门推理统计的课程由杜克大学的Çetinkaya-Rundel教授。这是最简单的入门课程。

Inferential Statistics:https://www.coursera.org/learn/inferential-statistics-intro?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&siteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

Çetinkaya-Rundel是一位了不起的讲师,她很好地解释了统计推断的基础知识,这也是一门必修课。

你将在这门课程中了解数值和分类数据的假设检验、置信区间和统计推断方法。

学习基础的SQL知识

虽然创建模型并提出不同的假设很让人有成就感,但数据的处理也不可轻视。

在ETL和数据准备任务中,SQL无处不在,因此每个人都应该了解基础的SQL知识。

此外,SQL已成为Apache Spark等大数据工具的标准。如下加州大学戴维斯分校的课程将为你讲授SQL的专业知识以及如何利用SQL进行分布式计算。

Learn SQL Basics for Data Science Specialization:

https://www.coursera.org/specializations/learn-sql-basics-data-science?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-mBEzDIHx4TXzEZrykss6xQ&siteID=lVarvwc5BD0-mBEzDIHx4TXzEZrykss6xQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:通过数据科学应用程序中的4个难度逐渐增加的SQL项目,学习SQL的基础知识、数据整理、SQL分析、AB测试、使用Apache Spark进行分布式计算等主题。

高级机器学习

上述我们学习的知识都非常简单(你可能有不同的看法),学习材料都是现成的,用到的数学知识也非常有限。但这些知识可以为下一步打好基础。下面是一门由顶级的Kaggle机器学习从业者和CERN科学家讲授的高级机器学习课程,其中讲述了许多难度非常高的概念,可以带领你了解机器过去的工作方式以及机器学习世界最新的发展。

Advanced Machine Learning Specialization:

https://www.coursera.org/specializations/aml?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-hwTRi7XT6lsOWS0g2lGNcA&siteID=lVarvwc5BD0-hwTRi7XT6lsOWS0g2lGNcA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:这门课程介绍了深度学习、强化学习、自然语言理解、计算机视觉和贝叶斯方法。顶尖的Kaggle机器学习实践者和CERN科学家将在课程中分享他们解决现实问题经验,并帮助你填补理论与实践的空白。

深度学习

下面这门深度学习专业课程的含金量非常高。

Deep Learning Specialization:

https://www.coursera.org/specializations/deep-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-m3SBadPJeg1Z1rWVng39OQ&siteID=lVarvwc5BD0-m3SBadPJeg1Z1rWVng39OQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

讲师Andrew Ng以非常浅显易懂的方式解释了难度非常高的概念。

课程简介:了解深度学习的基础知识,了解如何构建神经网络,并学习如何领导机器学习项目走向成功。您将了解卷积网络、循环神经网络(RNN)、长短期记忆网络(LSTM)、Adam、Dropout、批标准化,Xavier/He初始化等等。此外,你还将深入医疗保健、自动驾驶、手语阅读、音乐生成和自然语言处理等案例研究。

Pytorch

我通常从不提倡学习工具,但是在这里我要推荐Pytorch。原因是它不可思议且非常重要,如果你想了解Pytorch,就需要阅读许多近期研究论文中的代码。对于深度学习领域的研究人员来说,Pytorch已成为默认的编程语言,它会让我们受益匪浅。

由IBM提供的课程——Deep Neural Networks with PyTorch

https://www.coursera.org/learn/deep-neural-networks-with-pytorch?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-qSeTzSahS03W9YVHnWT_QA&siteID=lVarvwc5BD0-qSeTzSahS03W9YVHnWT_QA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

课程简介:该课程首先会介绍Pytorch的张量和自动微分软件包。每个章节都会涵盖不同的模型,这些模型从线性回归、逻辑回归/softmax回归等基础知识入手。其次是前馈深度神经网络、不同的激活函数、标准化以及Dropout层的作用。然后还会介绍卷积神经网络和转移学习。最后还会介绍其他几种深度学习方法。

AWS机器学习入门

构建出色的机器学习系统需要考虑很多因素。但是作为数据科学家,通常我们只担心项目的某些部分。

但是,我们是否考虑过在建立好模型后,如何部署模型?

我见过很多机器学习项目,但其中许多注定都要失败,因为从一开始这些项目就没有制定生产计划。拥有一个良好的平台并了解如何部署机器学习应用程序,这一点在现实世界中至关重要。下面这门AWS的课程介绍了如何利用AWS实现机器学习的应用程序。

Getting Started with AWS Machine Learning:

https://www.coursera.org/learn/aws-machine-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-Kfb17yr.B2kcW5gmdqpYjw&siteID=lVarvwc5BD0-Kfb17yr.B2kcW5gmdqpYjw&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

你将在这门课程中学习:

一、如何使用带有内置的算法和Jupyter Notebook实例的 Amazon SageMaker 来构建、训练和部署模型。

二、如何使用亚马逊的AI服务(如Amazon Comprehend、Amazon Rekognition、Amazon Translate等)来构建智能应用程序。

数据结构和算法

算法和数据结构是数据科学不可或缺的一部分。尽管大多数数据科学家都没有学习算法和数据结构,但它们都是必不可少的。

许多公司在招聘数据科学家的面试过程中,都会询问数据结构和算法。

Data Structures and Algorithms Specialization:

https://www.coursera.org/specializations/data-structures-algorithms?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-GFspWabzEy8Lf9dKWHbYyg&siteID=lVarvwc5BD0-GFspWabzEy8Lf9dKWHbYyg&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

你将在本课程中学习解决各种计算问题的算法,并用你喜欢的编程语言实现大约100种算法编程题。本课程提供的算法题非常接近你下一次面试可能遇到的编程题。

原文链接:https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701

作者:Rahul Agarwal,数据科学家@WalmartLabs。

本文为 CSDN 翻译,转载请注明来源出处。

    推荐阅读
  • 红蘑和榛蘑哪个好吃(香菇炖小鸡)

    要想汤和鸡肉的味道更好,一只高品质的老母鸡是最关键的。鸡肉不用焯水,剁大块后加料翻炒即可。出锅后还可以根据个人口味加入青蒜苗提鲜!爱吃的我,体重只保持在85斤左右,所以只要您吃对了方式、吃对了时间就会享受美食边享瘦哦!

  • pokemon go如何对战(PokemonGo之新手成长与习惯养成)

    有人说连续抓几只相同的怪,我曾经试过全nice以上评分去抓5只波波都没触发。。。这只我记得我是抓了两只波波后抓了只伊布给的bonus。。)6.旋转球并不会一定得到Curveball评分高速球:此处就随便点两句,仅仅是对此扔球方法一个解释。打道馆经验的获得与你打败道馆中精灵的数量,CP高低有影响。

  • 醉酒有什么解酒方法(有什么解酒方法)

    有什么解酒方法只要喝酒过量,可在酒后饮几杯优质蜂蜜水,不仅会使头痛头晕的感觉慢慢消失,而且能使人很快入睡,第二天早晨起床后也不会头痛,这样的蜂蜜水,在平时的生活中也可以多喝一些将柠檬用水洗净,拿盐巴清洗一下,除掉上。

  • 吃什么可补充腿无力(我们要补一补)

    我们要补一补维他命E维他命E可分解脂肪、胆固醇的囤积,它还可以促进血液循环,让新鲜的血液送达离心脏最过的腿部,给予细胞全新的氧气与营养若静脉产生停滞,组织液也随着停滞,腿部就容易变得粗壮维他命A缺少维他命A的下场。

  • dnf110级名望不足如何获取史诗(110级名望解除上限)

    110级名望解除上限说起地下城的氪金体系,其实在网游中还算比较良心的了!旭旭宝宝氪金上亿打造的红眼账号,伤害也没有比平民高几十倍,不少勇士还调侃花费不到旭旭宝宝的万分之一,却打出了5分之一的伤害,很值,但“名望系统”上线。

  • 教授回应知网道歉应拿出整改措施(而不是停留于表)

    而不是停留于表近年频频现身“法制板块”的知网,再次被推上风口浪尖10日,“CNKI知网”微信公众号发布关于“赵德馨教授起诉中国知网获赔”相关问题的说明,向中南财经政法大学的89岁退休教授赵德馨表达歉意随后,赵德馨接。

  • 如何清洗瓷器(清洗瓷器注意事项分享)

    清洗瓷器注意事项分享一般的污渍、土锈可以用碱性的稀释后的溶液(如84消毒液,超市里都有售)浸泡,视污渍的情况确定浓度和时间当然酸碱性质不同的污渍应取不同的液体浸泡,如碱性污渍可用白醋和草酸浸泡,中性污渍用二甲苯浸泡等浸泡。

  • 作奸犯科什么意思(作奸犯科的含义)

    作奸犯科什么意思作奸犯科,汉语成语,拼音zuòjiānfànkē,意思是为非作歹,触犯法令;指干违法乱纪的事。出自三国蜀·诸葛亮《出师表》:“若有作奸犯科及为忠善者,宜付有司论其刑赏。”诸葛亮一面联吴伐魏,积极准备两次北伐,在北伐前夕给刘阿斗写《前出师表》希望他整顿朝纲,将作奸犯科者严惩以巩固政治权利。

  • 情人节发520红包是表白吗(情人节微信开放)

    情人节微信开放原标题:情人节微信开放“520红包”大胆发问:分手之后还能要回吗?情人节你会选择什么方式示爱?“520”谐音“我爱你”,据说今天微信可以发520红包,官方还调侃“你有人可以发吗?”实测显示,微信目前的。

  • 数据科学家怎么修炼(十步教你成为数据科学家)

    十步教你成为数据科学家作者|RahulAgarwal译者|弯月,责编|伍杏玲以下为译文:在大学里,我的专业是机械工程师,所以毕业后我进入了钢铁行业我每天都穿着很重的钢靴和塑料头盔,在高炉和轧钢机周围冒险虽说我们有一定的安全。