文本挖掘的处理过程

如题所述

【答案】:一:数据收集:在文本挖掘之前,我们需要得到文本数据,文本数据的获取方法一般有两种:使用别人做好的语料库和自己用爬虫去在网上去爬自己的语料数据。二:除去数据中非文本部分:这一步主要是针对我们用爬虫收集的语料数据,由于爬下来的内容中有很多html的一些标签,需要去掉。三:处理中文编码问题。四:中文分词。五:引入停用词:“着”,“和”,还有一些标点符号,这些我们不想在文本分析的时候引入,因此需要去掉,这些词就是停用词。六:特征处理。
温馨提示:答案为网友推荐,仅供参考
相似回答