R함수 basic008 : read.csv, 말뭉치 설정 ,전처리전

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

무회blog

R함수 basic008 : read.csv, 말뭉치 설정 ,전처리전 본문

Python/R

R함수 basic008 : read.csv, 말뭉치 설정 ,전처리전

최무회 2020. 6. 4. 17:22

# install.packages("installr")
# install.packages("rJava")
# install.packages('devtools')
# devtools::install_github('haven-jeon/KoNLP')
# install.packages('RmecabKo') # C++ 기반으로 함,
# ############################################################################
# install.packages("ggplot2")
# install.packages("readxl")
# install.packages("dplyr")
# install.packages("tm")
# install.packages("RWeka")
# install.packages("caret")
# install.packages("flexclust")
############################################################################
library(ggplot2)               # mpg ### testData is mpg
library(readxl)
library(dplyr)
library(tm)
library(RWeka)
library(stringr)
############################################################################
library(installr)
library(rJava)                 # Sys.getenv("JAVA_HOME")
library(KoNLP)


############################################################################
## R함수 basic006 :  문장을 벡터로 변환하기 ,벡터(vector) 를 코퍼스(말뭉치)에 넣기  , 코퍼스(말뭉치)로 바이그램, 트라이그램 추출하기  
# tests <- "The United States comprises fifty states. In the United States, each state has its own laws. However, federal law overrides state law in the United States."

# bigramTokenizer <- function(x) NGramTokenizer(x,Weka_control(min=2, max=3))                  # 바이그램 =2, 트라이그램 =3 (min=2 or min = 3)
# mytext <- c("The United States comprises fifty states.","In the United States, each state has its own laws.","federal law overrides state law in the United States.")
# typeof(mytext)
# 
# mytemp <- VCorpus(VectorSource(mytext))                                                       #  말뭉치 만들기 , 코퍼스에 문장 벡터 3개 넣기 
# 
# ngram.tdm <- TermDocumentMatrix(mytemp,control = list(tokenize=bigramTokenizer))              # tdm 구성하기 
# bigramlist <- apply(ngram.tdm[,],1,sum)
# sort(bigramlist, decreasing = T)[1:10]                                                        # 빈도수가 높은 바이그램부터 살피기 
# 
## tt: apply(),lapply(),sapply(),tapply()   shiyongfa 
# ---------------------------
# 말뭉치를 dtm 으로 구성하기 , DocumentTermMatrix()

mytextlocation <- "D:/app_src/anaconda/00.Data/testNews/testsTTx/"
mypaper<- VCorpus(DirSource(mytextlocation))
mypaper

# mykorean <- mypaper[[3]]$content
mykorean <- mypaper[[2]]$content
mykorean
typeof(mykorean)

readF <- read.csv('d://app_src/anaconda/00.Data/testNews/testsTTx/test00_01.CSV',header = T)
readF$X_press_title
readF$X_press_content[[5]]

저작자표시 비영리 변경금지

'Python > R' 카테고리의 다른 글

Rstudio 작업경로정하기(workspace) (0)	2020.06.05
R함수 basic006 : 문장을 벡터로 변환하기 ,벡터(vector) 를 코퍼스(말뭉치)에 넣기 , 코퍼스(말뭉치)로 바이그램, 트라이그램 추출하기 ,dtm,tdm 만들기 (0)	2020.06.04
R함수 basic004 : substr, sub, replace, regmatches, 매칭 데이터 패턴 지우고 수정 ,등등 (0)	2020.06.03
R함수 basic003 : 텍스트 find , replace, sub, delete (0)	2020.06.03
R KoNLP (한글)형태소분석 다운로드 (0)	2020.06.03

'Python/R' Related Articles

Comments

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

무회blog

무회blog

R함수 basic008 : read.csv, 말뭉치 설정 ,전처리전 본문

R함수 basic008 : read.csv, 말뭉치 설정 ,전처리전

'Python > R' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역