机器学习,数据挖掘的书有哪些

如题所述

说到数据分析,人们往往会下意识地联想到另一个耳熟能详的名词:数据挖掘。那么,到底什么是数据挖掘呢?顾名思义,数据挖掘就是对数据进行处理,并从中提取可用信息的过程。如果你刚好正在寻找这方面的入门书籍,那么韩家炜老师写的《数据挖掘:概念与技术》绝对是一个不错的选择。

该书针对传统的数据分析方法,常见的如聚类、分类、去噪等,都做了非常细致的说明,并附带详实的算法、实例。相信你在看完该书的相关章节后,一定会对上述方法有较为深刻的认知。值得一提的是,该书还被许多学校引作本科教材,因此读者自学时还可以较为容易地获取各种参考学习资料,让学习模式直接从hard降为easy。
但是,由于该书成书较早,且近年来机器学习发展迅速,其中所涉及的诸多内容在今天看来已显得略微朴实,无法很好地反映数据分析领域当下最前沿的技术。但瑕不掩瑜,总体而言,这依然是一本初学者理想的入门书籍。

在学习完上一本《数据挖掘》后,此时的你将会拥有一些简单的数据分析基础。如果还想更上一层楼,那么周志华老师的这本《机器学习》绝对是不能错过的进阶读本。

用一句话来概括周志华老师的这本《机器学习》的话,大概就是“周老师用一万种方法教你挑个好西瓜”。由于“怎样挑个好瓜”的怨念贯穿了全书的始终,且连封面也印上了西瓜,人们也常常亲切地将其称为西瓜书。

相比于上一本教材,本书对读者明显提出了更高的要求。一方面,该书成书更晚,涵盖的机器学习方法也更广泛,决策树、神经网络、支持向量机、增强学习等大家常常听到的热点方法,书中都分章做了细致的介绍。另一方面,西瓜书涉及了不少数学公式,需要读者有一定的统计、代数数学基础。看一个公式花上半个小时,那真是家常便饭。不过大家也不用太紧张,本书的附录部分专门为许多公式提供了详尽的推导过程。即便看完附录后还是一头雾水,你也至少知道用搜索引擎时该填哪些关键词了( ̄ ▽  ̄)…总的来说,该书是进一步全面了解当下主流数据分析方法,俯瞰机器学习全貌的不二选择,大家可以按自身兴趣选读相关章节。

讲到这里,我似乎听到有读者在犯嘀咕了:“说了这么多,什么时候传我造AI的神功啊?就是那个叫什么深度学习的。”确实,这年头讲到数据分析如果不谈谈网络,都不好意思和别人说自己涉猎过这块领域。那么,笔者在此就再推荐一本神经网络的入门书籍。

其实,神经网络是机器学习方法的一条分支,而且上个世纪50年代就已经有了“感知机”的概念,将感知机推叠在一起就是“多层感知机”。只是限于当时的计算机算力,人们只能用多层感知机处理一些简单的问题,也无法构建深层网络,因此相关研究也很快冷下来。从某种程度上说,感知机和多层感知机就是当下神经元和神经网络的雏形。

2016年,Google的AlphaGo击败了李世石。人们突然惊奇地发现,当下的算力已经可以支撑神经网络胜任如此复杂的工作了。于是相关领域的研究热度被再次点燃,并一直延续至今。其实,神经网络的基础理论并不复杂,可概括为“只要神经元足够多,一层前馈网络足以拟合任何函数。”这个理论有什么用呢?举个例子,如果把你比作一个函数的话,那么你从外界感知到的信息就是函数的输入,而你的反应就是函数的输出。所以从理论上讲,只要你能拟合出一个足够准确的函数,就可以造出一个自己了!怎么样,是不是感觉可以去造AI了。

好了,现在让我们从梦中醒来,先挑一本学习教材。看完书,你就知道拟合出一个“准确”的函数,是一件需要那么多理论和技巧的事。就入门而言,我强烈推荐Michael Nielsen写的这本在线书籍《Neural Networks and Deep Learning》(http://neuralnetworksanddeeplearning.com/),主要有以下几个方面的理由:

· 该书篇幅适中,是极佳的快速入门读物。送你个哈工大的中文翻译链接(https://legacy.gitbook.com/book/hit-scir/neural-networks-and-deep-learning-zh_cn/details), 试试2个星期把它读完吧;

· 关键公式的推导过程非常详细,便于读者理解性地记忆反向传播、dropout等原理的内涵;

· 充分发挥了网页版书籍的优势,在页面中插入了一些运行小界面,生动地向读者诠释了神经网络底层运行的各种机理;

· 更难能可贵的是,随书还附带了一批可运行的神经网络实例。试试亲自上手改改代码吧,相信你会有意外的收获。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2018-06-26
《机器学习实战》:本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。
《数据挖掘-实用机器学习技术》:本书介绍数据挖掘的基本理论与实践方法。主要内容包括:各种模型(决策树,关联规则、线性模型、聚类、贝叶斯网以及神经网络)以及在实践中的运用,所存任缺陷的分析。安全地清理数据集、建立以及评估模型的预测质量的方法,并且提供了一个公开的数据挖掘工作平台Weka。Weka系统拥有进行数据挖掘仟务的图形用户界面,有助于理解模型,是一个实用并且深受欢迎的工具。
《数据挖掘:概念与技术》:本书全面地讲述数据挖掘领域的重要知识和技术创新。在第1版内容相当全面的基础上,第2版展示了该领域的最新研究成果,例如挖掘流、时序和序列数据以及挖掘时间空间、多媒体、文本和Web数据。本书可作为数据挖掘和知识发现领域的教师、研究人员和开发人员的一本必读书。本回答被网友采纳
相似回答