250x250
Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- db
- Python
- Websocket
- 이력서
- test
- oracle
- pytorch
- lda
- 게시판 만들기
- spring MVC(모델2)방식
- 지마켓
- 코사인 유사도
- word2vec
- jsp 파일 설정
- 파이썬
- 크롤링
- 방식으로 텍스트
- 과학백과사전
- 네이버뉴스
- RESFUL
- 자바
- mysql
- Gmarket
- 幼稚园杀手(유치원킬러)
- 토픽추출
- (깃)git bash
- r
- Topics
- java
- tomoto
Archives
- Today
- Total
무회blog
R함수 basic006 : 문장을 벡터로 변환하기 ,벡터(vector) 를 코퍼스(말뭉치)에 넣기 , 코퍼스(말뭉치)로 바이그램, 트라이그램 추출하기 ,dtm,tdm 만들기 본문
Python/R
R함수 basic006 : 문장을 벡터로 변환하기 ,벡터(vector) 를 코퍼스(말뭉치)에 넣기 , 코퍼스(말뭉치)로 바이그램, 트라이그램 추출하기 ,dtm,tdm 만들기
최무회 2020. 6. 4. 14:34# install.packages("installr")
# install.packages('RmecabKo') # C++ 기반으로 함,
# install.packages("ggplot2")
# install.packages("readxl")
# install.packages("dplyr")
# install.packages("rJava")
# install.packages("tm")
install.packages("RWeka")
## testData is mpg
library(installr)
library(ggplot2) # mpg
library(readxl)
library(dplyr)
library(rJava)
library(tm)
library(stringr)
library(RWeka)
## R함수 basic006 : 문장을 벡터로 변환하기 ,벡터(vector) 를 코퍼스(말뭉치)에 넣기 , 코퍼스(말뭉치)로 바이그램, 트라이그램 추출하기
tests <- "The United States comprises fifty states. In the United States, each state has its own laws. However, federal law overrides state law in the United States."
bigramTokenizer <- function(x) NGramTokenizer(x,Weka_control(min=2, max=3)) # 바이그램 =2, 트라이그램 =3 (min=2 or min = 3)
mytext <- c("The United States comprises fifty states.","In the United States, each state has its own laws.","federal law overrides state law in the United States.")
typeof(mytext)
mytemp <- VCorpus(VectorSource(mytext)) # 말뭉치 만들기 , 코퍼스에 문장 벡터 3개 넣기
ngram.tdm <- TermDocumentMatrix(mytemp,control = list(tokenize=bigramTokenizer)) # tdm 구성하기
bigramlist <- apply(ngram.tdm[,],1,sum)
sort(bigramlist, decreasing = T)[1:10] # 빈도수가 높은 바이그램부터 살피기
# ---------------------------
# 말뭉치를 dtm 으로 구성하기 , DocumentTermMatrix()
# dtm.e <- DocumentTermMatrix(mytemp) # dtm 으로 구성하기
# dtm.e$dimnames
'Python > R' 카테고리의 다른 글
Rstudio 작업경로정하기(workspace) (0) | 2020.06.05 |
---|---|
R함수 basic008 : read.csv, 말뭉치 설정 ,전처리전 (0) | 2020.06.04 |
R함수 basic004 : substr, sub, replace, regmatches, 매칭 데이터 패턴 지우고 수정 ,등등 (0) | 2020.06.03 |
R함수 basic003 : 텍스트 find , replace, sub, delete (0) | 2020.06.03 |
R KoNLP (한글)형태소분석 다운로드 (0) | 2020.06.03 |
Comments