250x250
Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- db
- r
- mysql
- 幼稚园杀手(유치원킬러)
- 방식으로 텍스트
- java
- 이력서
- RESFUL
- 과학백과사전
- Topics
- (깃)git bash
- oracle
- Websocket
- 네이버뉴스
- tomoto
- Python
- test
- 코사인 유사도
- pytorch
- spring MVC(모델2)방식
- 파이썬
- 토픽추출
- Gmarket
- 크롤링
- 지마켓
- word2vec
- lda
- jsp 파일 설정
- 자바
- 게시판 만들기
Archives
- Today
- Total
무회blog
python: 200529-python_문서내 단어 빈도 분석 본문
import pandas as pd
from konlpy.tag import Kkma
from konlpy.utils import pprint
kkma = Kkma()
f = open('C:\\Users\\user\\Documents\\PythonTest\\Data\\문재인대통령취임연설문.txt', 'r')
lines = f.readlines()
f.close()
# 형태소 분석하여 명사만 추출
temp = []
for i in range(len(lines)):
temp.append(kkma.nouns(lines[i]))
def flatten(l):
flatList = []
for elem in l:
if type(elem) == list:
for e in elem:
flatList.append(e)
else:
flatList.append(elem)
return flatList
word_list=flatten(temp)
# 두글자 이상인 단어만 추출
word_list=pd.Series([x for x in word_list if len(x)>1])
word_list.value_counts().head(20)
'Python' 카테고리의 다른 글
200601-군집분석 ,k-평균군집 (0) | 2020.06.01 |
---|---|
python: 200601- 파이썬 워드클라우드 그리기(konlpy, nltk) (0) | 2020.06.01 |
python: 200529-python-test002ldaModel-토픽추출 (0) | 2020.05.29 |
python: 200529-python-test001 ldaModel-토픽추출 (0) | 2020.05.29 |
python:200526-pyDB_ver001.02, - insert 다건 , executemany() (0) | 2020.05.26 |
Comments