机器学习中，怎样分析数据结构来选择算法

如题所述

推荐答案 2017-09-29

在模型选择方面，本身来说，个人觉得并没有一种很确定的指导方式，更多的是从你数据的应用角度去考虑问题，然后才是你对数据的理解。

应用角度的问题就是你对模型的要求，如果你的要求是模型尽量是可解释的，那么选择估计就只有决策树，逻辑回归等等这种简单的模型。
数据的角度：这个角度其实更多的是从获取某种先验知识或者基于某种假设等等，然后你去选择模型；
比如我有一个数据，我知道y-x>0则为1类，y-x<0则为0类别，这个是假设我知道的情况下，你会怎么取选择分类器呢，很明显，直接用线性回归就应该做的不错，或许和你之后的会有点小偏差，但是就是应该不错，那么此时你会发现SVM的线性核应该可以是可以的，你的思路就会发现，其实基本上所有的线性分类器在这样的数据集合上都应该不错的；
然而你考虑一下Decision Tree，你会发现他做的不是很好，但是最差最差也能够得到75%（假设我就分一次，x>0和x<0），这个时候你怎么评估这个问题的好与坏呢，如果是赌场，这个效果是很好了，但是如果是指纹的识别，这个就不好了；再深入的考虑下去，你可能会否定Decision Tree，但是，其实这个问题，如果是用 Random Forest去做，他又会做的很好，因为在不断的选取数据中，他会不断的得到新的划分点。
你也可以从wikipedia（Random forest）的介绍中感觉到，RF是可以做好的，因为他相当于是带权的KNN；
所以我觉得在实际应用中，从简单模型开始尝试，或许会有新的对数据的认识，从而使你得到一些没有的信息，如上述的问题中，你从linear regression就很容易发现这个效果，但是你如果一来就是NN或者SVM，或许你就发现不了这种关系了；
当然，如果你是为了快速的做出一个好的结果，那一来就尝试复杂模型总会是稍微好点的，理由也是很简单的，因为复杂模型的VC维比较高，当然就能解决更多的问题。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/OWzXeXXW7WB7jXXWzv.html

相似回答

机器学习处理问题如何选择一个合适的算法?答：选择算法首先需要分析业务需求或者场景，这一步完成以后，就需要我们初探数据，看看自己是否需要预测目标值，如果需要的话，那么就使用监督学习，当然，使用监督学习的时候，如果发现了目标变量，如果是离散型，那么就使用分类算法，如果是连续型，那么就使用回归算法。当然，如果我们发现不需要预测目标值，那么...

算法太多挑花眼?答：在你开始研究不同的机器学习算法前,你需要对自己拥有的数据、面对的问题及相关约束有清晰的了解。理解你的数据当我们决定使用哪种算法时,我们所拥有的数据的类型和形态起着关键性的作用。有些算法可以利用较小的样本集合工作,而另一些算法则需要海量的样本。特定的算法对特定类型的数据起作用。例如,朴素贝叶斯算法对处...

初学者如何选择合适的机器学习算法(附算法答：如何为分类问题选择合适的机器学习算法 若要达到一定的准确率，需要尝试各种各样的分类器，并通过交叉验证选择最好的一个。但是，如果你只是为你的问题寻找一个“足够好”的算法或者一个起点，以下准则有利于选择合适的分类器：你的训练集有多大？如果训练集很小，那么高偏差/低方差分类器（如朴素贝叶斯...

机器学习中,有哪些特征选择的工程方法?答：在机器学习的探索之旅中，特征工程是至关重要的一步。它如同魔法师的手法，从原始数据中提炼出精华，让算法能够精准识别模式。让我们一起深入理解几种关键的工程方法，包括数据预处理、特征选择和降维，以及如何巧妙地运用sklearn库来提升模型性能。数据预处理首先，我们接触的是数据的清洗与规范化。无...

机器学习算法及模型实现系列——聚类算法谱聚类答：探索机器学习的聚类艺术：谱聚类算法详解在机器学习的海洋中，聚类问题如同一座迷宫，其中，Connectivity方法的谱聚类算法以其独特的见解脱颖而出。谱聚类是基于无向带权图的连接性方法，它的核心在于利用拉普拉斯矩阵的魔力，将复杂的数据映射到低维空间，以便于后续的KMeans等经典算法进行精细划分。预备知识...

机器学习新手必看十大算法答：最常见的机器学习算法是学习映射 Y = f(X) 来预测新 X 的 Y。这叫做预测建模或预测分析,我们的目标是尽可能作出最准确的预测。对于想了解机器学习基础知识的新手,本文将概述数据科学家使用的 top 10 机器学习算法。1. 线性回归线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。预测建模主要关注最...

开启算法之旅,从零基础开始答：算法是计算机科学的核心,也是程序员必须掌握的技能之一。本文将从零基础开始,为你介绍如何开启算法之旅。‍选择编程语言选择一门编程语言是开启算法之旅的第一步。对于初学者来说,C++是一个较为普遍的选择。学习数据结构学习数据结构是算法学习的关键。数据结构的书籍有很多,具体选择哪一本取决于个人情况...

如何使用张量的代数运算解决机器学习中的问题?答：张量的代数运算在机器学习中起着重要的作用，它可以用来表示和处理复杂的数据结构，如多维数组。以下是如何使用张量的代数运算解决机器学习问题的一些方法：1.特征工程：在机器学习中，我们经常需要对数据进行预处理，包括特征选择、特征缩放等。这些操作可以通过张量的代数运算来实现。例如，我们可以使用向量的...

大家正在搜