Python
python: python_ jsonToExcel, json
sucun
2020. 6. 8. 08:43
# %pip install konlpy
# # import pandas as pd
# # import konlpy.okt
# # # Data = pd.read_csv('./newsTest/test001.csv',engine="python")
# # # Data
# # train_data = pd.read_table('./newsTest/3년간_건강보험증_부정사용_18만건회수율70%못미쳐.txt')
# # len(train_data)
# # train_data
# # # train_data = train_data.dropna(how = 'any') # Null 값이 존재하는 행 제거
# # train_data.isnull().values.any()
# # # 정규 표현식을 통한 한글 외 문자 제거
# # train_data['document'] = train_data['인쇄하기'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
# # train_data
# # # 불용어 정의
# # stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']
# # okt = Okt()
# # tokenized_data = []
# # for sentence in train_data['document']:
# # temp_X = okt.morphs(sentence, stem=True) # 토큰화
# # temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거
# # tokenized_data.append(temp_X)
반응형