Pradeep Menon是一位在大数据,数据科学,数据架构领域拥有丰富经验以及影响力的专家。这是他今年所撰写的简述数据科学系列文章中的第一篇,主要介绍数据科学中的基本定律、常用算法以及问题类型,读者可以从中一窥数据科学的全景。2016年,英国数学家,乐购俱乐部构架师Clive Humbly提出“数据是新能源”这样一个说法。他说:“数据是新能源。它拥有极高的价值,却需要经过提炼才能使用。就像石油一样,必须被转化为气体、塑料或者化学品等,才能发挥出其实际的作用; 因此,数据只有被分解和分析之后才具备价值。”iPhone革命,移动经济的增长,为大数据技术的发展创造了一个完美的契机。在2012年,HBR(Harvard Bussiness Review)发表过一篇文章,将数据科学家推到了风口浪尖上。这篇名为《数据科学家: 21世纪最性感的职业》(Data Scientist: The Sexiest Job of the 21st Centry) ( https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century) 给这群“新人类”打上了标签: 一个数据黑客、分析师、传播者和信誉顾问的混合体。每个公司目前都在尝试变得更为“数据驱动(data-driven)”。机器学习技术在其中提供了很大的帮助。这其中很多的东西非常专业,很难理解。因此,本系列文章将会简化数据科学。作者尝试参照斯坦福大学的课程以及教科书统计学习导论(Introduction to Statistical Learning) (http://www-bcf.usc.edu /~gareth/ISL/ ),将数据科学以一种简单容易理解的形式呈现给读者。数据科学是一个多学科领域,主要包括:商业知识 (Business Knowledge)统计学习又名机器学习 (Statistical Learning aka Machine Learning)电脑编程 (Computer Programming)该系列的重点是简化数据科学中机器学习方面的知识。本文将首先介绍数据科学中的基本定律,常用算法以及问题类型。