무회blog

python: 200529-python_문서내 단어 빈도 분석 본문

Python

python: 200529-python_문서내 단어 빈도 분석

최무회 2020. 5. 29. 19:28
import pandas as pd
from konlpy.tag import Kkma
from konlpy.utils import pprint
kkma = Kkma()

f = open('C:\\Users\\user\\Documents\\PythonTest\\Data\\문재인대통령취임연설문.txt', 'r')
lines = f.readlines()
f.close()


# 형태소 분석하여 명사만 추출
temp = []
for i in range(len(lines)):
    temp.append(kkma.nouns(lines[i]))


def flatten(l): 
    flatList = [] 
    for elem in l: 
        if type(elem) == list: 
            for e in elem: 
                flatList.append(e) 
        else: 
            flatList.append(elem) 
    return flatList

word_list=flatten(temp)


# 두글자 이상인 단어만 추출
word_list=pd.Series([x for x in word_list if len(x)>1])

word_list.value_counts().head(20)
Comments