Python编程实现csv文件某一列的词频统计

我有一个csv文件，第三列是一些评论，想请教您该如何实现对该列的词频统计，谢谢！

举报该问题

推荐答案 2017-06-22

import re
import collections
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
#为避免出问题，文件名使用全路径
data = pd.read_csv('XXX.csv')
trainheadlines = []
for row in range(0, len(data.index)):
trainheadlines.append(' '.join(str(x) for x in data.iloc[row, m:n]))
#上面的m:n代表取那一列，或者那几列。

advancedvectorizer = TfidfVectorizer(
min_df=0, max_df=1, max_features=20000, ngram_range=(1, 1))
advancedtrain = advancedvectorizer.fit_transform(trainheadlines)
print(advancedtrain.shape)

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/W7tzjX7eeWeOtv77zeX.html

其他回答

第1个回答 2014-04-11

如果是用户输入关键词，计算关键词的词频。这个好做，如果是要程序自己分析词来做词频统计，这个非常难。追问

要的就是第二个啊

相似回答

大家正在搜