五月天婷亚洲天久久综合网,婷婷丁香五月激情亚洲综合,久久男人精品女人,麻豆91在线播放

  • <center id="8gusu"></center><rt id="8gusu"></rt>
    <menu id="8gusu"><small id="8gusu"></small></menu>
  • <dd id="8gusu"><s id="8gusu"></s></dd>
    樓主: 我就是只貓
    1615 0

    [問答] R語言轉(zhuǎn)置是否會自動識別原數(shù)據(jù)的列為標(biāo)題及層次聚類的問題 [推廣有獎]

    • 0關(guān)注
    • 1粉絲

    大專生

    43%

    還不是VIP/貴賓

    -

    威望
    0
    論壇幣
    110 個
    通用積分
    0
    學(xué)術(shù)水平
    0 點(diǎn)
    熱心指數(shù)
    0 點(diǎn)
    信用等級
    0 點(diǎn)
    經(jīng)驗(yàn)
    326 點(diǎn)
    帖子
    57
    精華
    0
    在線時(shí)間
    39 小時(shí)
    注冊時(shí)間
    2014-7-16
    最后登錄
    2015-5-23

    相似文件 換一批

    +2 論壇幣
    k人 參與回答

    經(jīng)管之家送您一份

    應(yīng)屆畢業(yè)生專屬福利!

    求職就業(yè)群
    趙安豆老師微信:zhaoandou666

    經(jīng)管之家聯(lián)合CDA

    送您一個全額獎學(xué)金名額~ !

    感謝您參與論壇問題回答

    經(jīng)管之家送您兩個論壇幣!

    +2 論壇幣
    我有一份新聞內(nèi)容的數(shù)據(jù),數(shù)據(jù)包含1790行2列,2列是新聞編號和新聞內(nèi)容,現(xiàn)在是想做層次聚類,就得變成2行1790列,但是這樣導(dǎo)入的特慢,就想先導(dǎo)入2列那種形式的,再進(jìn)行轉(zhuǎn)置,但有個疑問是轉(zhuǎn)置之后header會自動識別為新聞編號嗎?要是不能識別,怎么設(shè)置轉(zhuǎn)置后第一行是標(biāo)題呢?畫出層次聚類的圖只有三個元素,差太多了。以下是代碼,請大家看看有什么問題,多多指教:

    csv<- read.table("body1.txt",header=F)

    csv <-t(csv)

    library(tm)

    txt<-Corpus(VectorSource(csv))

    txt<-tm_map(txt,removeNumbers)#去除數(shù)字

    txt<-tm_map(txt,stripWhitespace)#去除多余空格

    txt<-tm_map(txt,removePunctuation)#去除標(biāo)點(diǎn)符號

    txt<-tm_map(txt,removeWords,stopwords("english"))#將英文中的停詞刪掉:例如把that at 等英文介詞去掉。

    txt<-tm_map(txt,PlainTextDocument)#去掉空文件


    Sys.setenv(JAVA_HOME='C:/ProgramFiles/Java/jdk1.6.0_43/jre')

    library(Rwordseg)

    txt<-segmentCN(as.character(txt))#將語料庫中的中文時(shí)行分詞

    txt<-Corpus(VectorSource(txt))


    cnword<-read.table(file.choose(),header=F)

    cnword<-as.vector(cnword[1:dim(cnword)[1],])#需要為向量格式

    dtm<-DocumentTermMatrix(txt,control=list(dictionary=cnword,removePunctuation=TRUE,stopwords=TRUE,wordLengths = c(2, Inf)))

    dtm2= removeSparseTerms(dtm, sparse=0.99)

    d<- dist(dtm2, method = "euclidean")

    fit<- hclust(d, method="ward.D")

    plot(fit)


    二維碼

    掃碼加我 拉你入群

    請注明:姓名-公司-職位

    以便審核進(jìn)群資格,未注明則拒絕

    關(guān)鍵詞:R語言 Head der EAD 數(shù)據(jù)包 元素

    body1.txt

    4.15 MB

    這個是原數(shù)據(jù)

    body.txt

    4.15 MB

    這個是原本想直接導(dǎo)入做聚類的,但無奈導(dǎo)入太慢,電腦配置也不行

    您需要登錄后才可以回帖 登錄 | 我要注冊

    本版微信群
    加好友,備注cda
    拉您進(jìn)交流群

    京ICP備16021002-2號 京B2-20170662號 京公網(wǎng)安備 11010802022788號 論壇法律顧問:王進(jìn)律師 知識產(chǎn)權(quán)保護(hù)聲明   免責(zé)及隱私聲明

    GMT+8, 2024-12-23 21:30