求大佬帮小白看看聚类分析图

如题，本人文科生，但有个课需要python基础，用老师给的代码画了一个聚类文本分析完全不知道是啥意思，请大佬帮看看

自顶

元宇丰业（福建）数字科技

一次激活，长久使用，安全稳定无广告，无捆绑，专业软件，在线客服稳定售后有保障!

2025-02-11 05:54广告

立即查看

单机贴吧吗

大佬们都在敲代码吗

怎么分析，分析什么

这个是matplotlib的绘图，点状图的一种，将数组中的数据进行展示，有一个x,y对应一个点，越密集证明出现的概率越多

# coding=utf-8
import time
import re
import os
import sys
import codecs
import shutil
import numpy as np
import matplotlib
import scipy
import matplotlib.pyplot as plt
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import HashingVectorizer if __name__ == "__main__": #########################################################################
# 第一步计算TFIDF
# 文档预料空格连接
corpus = []
# 读取预料一行预料为一个文档
for line in open('C-class-fenci.txt', 'r', encoding='utf-8').readlines():
corpus.append(line.strip())
# 将文本中的词语转换为词频矩阵矩阵元素a[i][j] 表示j词在i类文本下的词频
vectorizer = CountVectorizer()
# 该类会统计每个词语的tf-idf权值
transformer = TfidfTransformer()
# 第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
# 获取词袋模型中的所有词语
word = vectorizer.get_feature_names()
# 将tf-idf矩阵抽取出来元素w[i][j]表示j词在i类文本中的tf-idf权重
weight = tfidf.toarray()
# 打印特征向量文本内容
print('Features length: ' + str(len(word)))
"""
# 输出单词
for j in range(len(word)):
print(word[j] + ' ')
# 打印每类文本的tf-idf词语权重第一个for遍历所有文本第二个for便利某一类文本下的词语权重
for i in range(len(weight)):
print u"-------这里输出第", i, u"类文本的词语tf-idf权重------"
for j in range(len(word)):
print weight[i][j],
""" ########################################################################
# 第二步聚类Kmeans
print('Start Kmeans:')
from sklearn.cluster import KMeans
clf = KMeans(n_clusters=2)
print(clf)
pre = clf.fit_predict(weight)
print(pre) #中心点
print(clf.cluster_centers_)
print(clf.inertia_)
########################################################################
# 第三步图形输出降维
from sklearn.decomposition import PCA
pca = PCA(n_components=2) #输出两维
newData = pca.fit_transform(weight) #载入N维
print(newData)
x = [n[0] for n in newData]
y = [n[1] for n in newData]
plt.scatter(x, y, c=pre, s=100)
plt.legend()
plt.title("Cluster with Text Mining")
plt.show()

代码是这样的有没有大佬来具体讲讲是啥意思

大概就是先把爬取的文本先进行重要性排序然后再生成这个图

自顶

@大苏打😳 @少幽科技

就是根据词的权重分类，把相近的归为一类

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

11回复贴，共1页

<<返回python吧

分享到:

日	一	二	三	四	五	六