网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月11日
漏签
0
天
python吧
关注:
470,983
贴子:
1,956,917
看贴
图片
吧主推荐
视频
游戏
11
回复贴,共
1
页
<<返回python吧
>0< 加载中...
求大佬帮小白看看聚类分析图
只看楼主
收藏
回复
四害猎
人
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
如题,本人文科生,但有个课需要python基础,用老师给的代码画了一个聚类文本分析完全不知道是啥意思,请大佬帮看看
四害猎
人
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
自顶
元宇丰业(福建)数字科技
一次激活,长久使用,安全稳定无广告,无捆绑,专业软件,在线客服稳定售后有保障!
2025-02-11 05:54
广告
立即查看
四害猎
人
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
单机贴吧吗
四害猎
人
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
大佬们都在敲代码吗
少幽科技
举人
4
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
怎么分析,分析什么
大苏打
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
这个是matplotlib的绘图,点状图的一种,将数组中的数据进行展示,有一个x,y对应一个点,越密集证明出现的概率越多
四害猎
人
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
# coding=utf-8
import time
import re
import os
import sys
import codecs
import shutil
import numpy as np
import matplotlib
import scipy
import matplotlib.pyplot as plt
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import HashingVectorizer if __name__ == "__main__": #########################################################################
# 第一步 计算TFIDF
# 文档预料 空格连接
corpus = []
# 读取预料 一行预料为一个文档
for line in open('C-class-fenci.txt', 'r', encoding='utf-8').readlines():
corpus.append(line.strip())
# 将文本中的词语转换为词频矩阵 矩阵元素a[i][j] 表示j词在i类文本下的词频
vectorizer = CountVectorizer()
# 该类会统计每个词语的tf-idf权值
transformer = TfidfTransformer()
# 第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
# 获取词袋模型中的所有词语
word = vectorizer.get_feature_names()
# 将tf-idf矩阵抽取出来 元素w[i][j]表示j词在i类文本中的tf-idf权重
weight = tfidf.toarray()
# 打印特征向量文本内容
print('Features length: ' + str(len(word)))
"""
# 输出单词
for j in range(len(word)):
print(word[j] + ' ')
# 打印每类文本的tf-idf词语权重 第一个for遍历所有文本 第二个for便利某一类文本下的词语权重
for i in range(len(weight)):
print u"-------这里输出第", i, u"类文本的词语tf-idf权重------"
for j in range(len(word)):
print weight[i][j],
""" ########################################################################
# 第二步 聚类Kmeans
print('Start Kmeans:')
from sklearn.cluster import KMeans
clf = KMeans(n_clusters=2)
print(clf)
pre = clf.fit_predict(weight)
print(pre) #中心点
print(clf.cluster_centers_)
print(clf.inertia_)
########################################################################
# 第三步 图形输出 降维
from sklearn.decomposition import PCA
pca = PCA(n_components=2) #输出两维
newData = pca.fit_transform(weight) #载入N维
print(newData)
x = [n[0] for n in newData]
y = [n[1] for n in newData]
plt.scatter(x, y, c=pre, s=100)
plt.legend()
plt.title("Cluster with Text Mining")
plt.show()
四害猎
人
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
代码是这样的 有没有大佬来具体讲讲是啥意思
四害猎
人
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
大概就是先把爬取的文本先进行重要性排序 然后再生成这个图
四害猎
人
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
自顶
四害猎
人
白丁
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
@大苏打😳
@少幽科技
1睡觉了
贡士
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
就是根据词的权重分类,把相近的归为一类
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示