你好,我在生成系数矩阵时遇到一些问题,生的系数矩阵如下;
dtm <- DocumentTermMatrix(corpus) # 构建稀疏矩阵
# 把稀疏矩阵转换为数据框,并且只选择word_freq里面的word列里面特征值
dtm <- as.data.frame(as.matrix(dtm)) %>% select(word_freq$word)
wordfreq_dtm <- create_term_frequency_counts(dtm) # 计算所有词频
dtm2 <- suppressWarnings(cbind(dtm, sms[-2])) # 把稀疏矩阵和之前重塑的数据合并
dtm2$label <- as.factor(dtm2$label) # 把类别转换为因子型
table(dtm2$label) # 查看类别个数
prop.table(table(dtm2$label)) # 查看类别占比
## 剔除一半正常短信的样本
index <- rownames(dtm2[dtm2$label == 'ham', ]) # 获取正常短信样本行索引
set.seed(1234)
index2 <- sample(index, length(index)*0.5) # 抽取其中的一半行索引
dtm3 <- dtm2[-as.numeric(index2), ] # 剔除这一半样本
最后一步出错,主要是因为index是character型,例如character.0.007。不能直接转化为numer型,求解。谢谢
可以提供代码。