在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。
1. C4.5
C4.5ç®æ³æ¯æºå¨å¦ä¹ ç®æ³ä¸çä¸ç§åç±»å³çæ ç®æ³,å ¶æ ¸å¿ç®æ³æ¯ID3ç®æ³. C4.5ç®æ³ç»§æ¿äºID3ç®æ³çä¼ç¹ï¼å¹¶å¨ä»¥ä¸å æ¹é¢å¯¹ID3ç®æ³è¿è¡äºæ¹è¿ï¼
1) ç¨ä¿¡æ¯å¢ççæ¥éæ©å±æ§ï¼å æäºç¨ä¿¡æ¯å¢çéæ©å±æ§æ¶ååéæ©åå¼å¤çå±æ§çä¸è¶³;
2) å¨æ æé è¿ç¨ä¸è¿è¡åªæ;
3) è½å¤å®æ对è¿ç»å±æ§ç离æ£åå¤ç;
4) è½å¤å¯¹ä¸å®æ´æ°æ®è¿è¡å¤çã
2. The k-means algorithm å³K-Meansç®æ³
k-means algorithmç®æ³æ¯ä¸ä¸ªèç±»ç®æ³ï¼ænçå¯¹è±¡æ ¹æ®ä»ä»¬çå±æ§å为k个åå²ï¼k < nãå®ä¸å¤çæ··åæ£æåå¸çæ大ææç®æ³å¾ç¸ä¼¼ï¼å 为ä»ä»¬é½è¯å¾æ¾å°æ°æ®ä¸èªç¶èç±»çä¸å¿ãå®å设对象å±æ§æ¥èªäºç©ºé´åéï¼å¹¶ä¸ç®æ æ¯ä½¿å个群ç»å é¨çå æ¹è¯¯å·®æ»åæå°ã
3. Support vector machines
æ¯æåéæºï¼è±æ为Support Vector Machineï¼ç®ç§°SVæº(论æä¸ä¸è¬ç®ç§°SVM)ãå®æ¯ä¸ç§çç£å¼å¦ä¹ çæ¹æ³ï¼å®å¹¿æ³çåºç¨äºç»è®¡å类以ååå½åæä¸ãæ¯æåéæºå°åéæ å°å°ä¸ä¸ªæ´ é«ç»´ç空é´éï¼å¨è¿ä¸ªç©ºé´é建ç«æä¸ä¸ªæ大é´éè¶ å¹³é¢ãå¨åå¼æ°æ®çè¶ å¹³é¢ç两边建æ两个äºç¸å¹³è¡çè¶ å¹³é¢ãåéè¶ å¹³é¢ä½¿ä¸¤ä¸ªå¹³è¡è¶ å¹³é¢çè·ç¦»æ大åã
4. The Apriori algorithm
Aprioriç®æ³ï¼å®æ¯ä¸ç§æå ·å½±ååçææå¸å°å ³èè§åé¢ç¹é¡¹éçç®æ³ãå®çç®æ³æ ¸å¿æ¯åºäºä¸¤é¶æ®µé¢éææ³çéæ¨ç®æ³ãè¯¥å ³èè§åå¨åç±»ä¸å±äºåç»´ãåå±ãå¸å°å ³èè§åãå¨è¿éï¼æææ¯æ度大äºæå°æ¯æ度ç项é称为é¢ç¹é¡¹éï¼ç®ç§°é¢éã
å ³äºæ°æ®ææçç»å ¸ç®æ³æåªäºï¼è¯¥å¦ä½ä¸æçå 容ï¼éè¤å°ç¼å°±åæ¨å享å°è¿éäºãå¦ææ¨å¯¹å¤§æ°æ®å·¥ç¨ææµåçå ´è¶£ï¼å¸æè¿ç¯æç« å¯ä»¥ä¸ºæ¨æä¾å¸®å©ãå¦ææ¨è¿æ³äºè§£æ´å¤å ³äºæ°æ®åæå¸ã大æ°æ®å·¥ç¨å¸çæå·§åç´ æçå 容ï¼å¯ä»¥ç¹å»æ¬ç«çå ¶ä»æç« è¿è¡å¦ä¹ ã