python: python_ jsonToExcel, json

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

무회 Blog

python: python_ jsonToExcel, json 본문

Python

python: python_ jsonToExcel, json

sucun 2020. 6. 8. 08:43

# %pip install konlpy
# # import pandas as pd 
# # import konlpy.okt

# # # Data = pd.read_csv('./newsTest/test001.csv',engine="python")
# # # Data

# # train_data = pd.read_table('./newsTest/3년간_건강보험증_부정사용_18만건회수율70%못미쳐.txt')

# # len(train_data)
# # train_data
# # # train_data = train_data.dropna(how = 'any') # Null 값이 존재하는 행 제거
# # train_data.isnull().values.any()

# # # 정규 표현식을 통한 한글 외 문자 제거
# # train_data['document'] = train_data['인쇄하기'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")

# # train_data

# # # 불용어 정의
# # stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

# # okt = Okt()
# # tokenized_data = []
# # for sentence in train_data['document']:
# #     temp_X = okt.morphs(sentence, stem=True) # 토큰화
# #     temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거
# #     tokenized_data.append(temp_X)

저작자표시 비영리 변경금지 (새창열림)

'Python' 카테고리의 다른 글

200609-005.03.02_topikTs_LDA (0)	2020.06.09
python: 200608-python, LDA 토픽추출 테스트 001_success, tomoto (0)	2020.06.08
python: 200607- python 토픽추출 , nltk, tomoto, test->for_topics-004 (0)	2020.06.07
python: tomotopy API 문서, 토픽추출시 참고 (0)	2020.06.06
200602-word2vec test001 (0)	2020.06.02

'Python' Related Articles

Comments

무회 Blog

python: python_ jsonToExcel, json 본문

python: python_ jsonToExcel, json

'Python' 카테고리의 다른 글

티스토리툴바