200601-군집분석 ,k-평균군집

250x250

Notice

Recent Posts

Recent Comments

Link

« 2024/11 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

무회blog

200601-군집분석 ,k-평균군집 본문

Python

200601-군집분석 ,k-평균군집

최무회 2020. 6. 1. 20:09

# Part2 qunji jisuan 
# %pip install sklearn
# k평균 군집합 

import pandas as pd
from konlpy.tag import Hannanum
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.cluster import KMeans

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt 
import re


hannanum = Hannanum()

Data = pd.read_csv('./newsTest/test001.csv',engine="python")


docs = []
for i in Data['data']:
    docs.append(hannanum.nouns(i))
    
docs = [x for x in docs if len(x)> 1 ]

for i in range(len(docs)):
    docs[i] = ' '.join(docs[i])
    
vec = CountVectorizer()
X= vec.fit_transform(docs)
df = pd.DataFrame(X.toarray(), columns=vec.get_feature_names())
kmeans = KMeans(n_clusters=3).fit(df)

pca = PCA(n_components=2)
principalComponents = pca.fit_transform(df)
principalComponents
principalDf = pd.DataFrame(data = principalComponents, columns=['principal component 1','principal component 2'])
principalDf.index=Data['search']
plt.scatter(principalDf.iloc[kmeans.labels_ == 0, 0], principalDf.iloc[kmeans.labels_ ==0,1], s = 10, c='red',label='cluster1')
plt.scatter(principalDf.iloc[kmeans.labels_ == 1, 0], principalDf.iloc[kmeans.labels_ ==1,1], s = 10, c='blue',label='cluster2')
plt.scatter(principalDf.iloc[kmeans.labels_ == 2, 0], principalDf.iloc[kmeans.labels_ ==2,1], s = 10, c='green',label='cluster3')
plt.legend()

저작자표시 비영리 변경금지

'Python' 카테고리의 다른 글

200602-word2vec test001 (0)	2020.06.02
200601-파이썬 LDAmodel 적용하기 ,토픽추출 (topik) 하기 (0)	2020.06.01
python: 200601- 파이썬 워드클라우드 그리기(konlpy, nltk) (0)	2020.06.01
python: 200529-python_문서내 단어 빈도 분석 (0)	2020.05.29
python: 200529-python-test002ldaModel-토픽추출 (0)	2020.05.29

'Python' Related Articles

Comments

무회blog

200601-군집분석 ,k-평균군집 본문

200601-군집분석 ,k-평균군집

'Python' 카테고리의 다른 글

티스토리툴바