python: python_ jsonToExcel, json

Python

python: python_ jsonToExcel, json

sucun 2020. 6. 8. 08:43

# %pip install konlpy
# # import pandas as pd 
# # import konlpy.okt

# # # Data = pd.read_csv('./newsTest/test001.csv',engine="python")
# # # Data

# # train_data = pd.read_table('./newsTest/3년간_건강보험증_부정사용_18만건회수율70%못미쳐.txt')

# # len(train_data)
# # train_data
# # # train_data = train_data.dropna(how = 'any') # Null 값이 존재하는 행 제거
# # train_data.isnull().values.any()

# # # 정규 표현식을 통한 한글 외 문자 제거
# # train_data['document'] = train_data['인쇄하기'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")

# # train_data

# # # 불용어 정의
# # stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

# # okt = Okt()
# # tokenized_data = []
# # for sentence in train_data['document']:
# #     temp_X = okt.morphs(sentence, stem=True) # 토큰화
# #     temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거
# #     tokenized_data.append(temp_X)

저작자표시 비영리 변경금지 (새창열림)