무회blog

파이썬 파일 전처리 0424 본문

Python

파이썬 파일 전처리 0424

최무회 2020. 4. 24. 21:35

import pandas as pd 
import numpy as np 

0424-정의_전처리.xlsx
0.49MB
seleniumTest.ipynb
0.00MB
testYY001.csv
2.18MB
전처리_질병용어.xlsx
1.03MB
정의_전처리.xlsx
0.49MB
0424-001.ipynb
0.00MB
0424-003.ipynb
0.00MB
data001.xlsx
5.59MB
read_testCsv.ipynb
0.01MB
seleniumTest2.ipynb
0.01MB
testTag001.xlsx
2.30MB
tomorrow.ipynb
0.01MB
질병 용어 사전001.xlsx
3.33MB


import time 
import re


# data = pd.read_csv("./testTag001.csv", names=["subTag"])
data = pd.read_csv("./기타/testYY001.csv", names=["subTag"])

data['cd']=data['subTag'].str.replace('','@')
# data['cda']=data['subTag'].str.replace('','@')
# data[t] = data['cd'].str.split('@').str[0]
data['a'] = data['cd'].str.split('@').str[0]
data['b'] = data['cd'].str.split('@').str[1]
data['c'] = data['cd'].str.split('@').str[2]
data['d'] = data['cd'].str.split('@').str[3]
data['e'] = data['cd'].str.split('@').str[4]
data['f'] = data['cd'].str.split('@').str[5]
data['g'] = data['cd'].str.split('@').str[6]

# text = data['cd'][0]
# text = data['cd'][1239]
# text = re.sub('<.*?>','',text,0)
# print(text)

# print(type(data['cd'][0]))
# data['cd'][0] = text

for i in range(1240):
    tt = data['cd'][i]
    text = re.sub('<.*?>','',tt)
    data['cd'][i] = text
    
for i in range(1240):
    a = data['a'][i]
    a = re.sub('<.*?>','',a)
    data['a'][i] = a
    b = data['b'][i]
    b = re.sub('<.*?>','',b)
    data['b'][i] = b
    c = data['c'][i]
    c = re.sub('<.*?>','',c)
    data['c'][i] = c
# for i in range(1240):    
#     d = data['d'][i]
#     d = re.sub('<.*?>','',d)
#     data['d'][i] = d
#     d = data['d'][i]
#     d = re.sub('<.*?>','',d)
#     data['d'][i] = d
#     e = data['e'][i]
#     e = re.sub('<.*?>','',e)
#     data['e'][i] = e
#     f = data['f'][i]
#     f = re.sub('<.*?>','',f)
#     f['f'][i] = text
    
    

data



# # print(data['c1'].size)  # 1240 
# # st = data['subTag'].values
# li_0 = []
# li_1 = []
# li_2 = []
# li_3 = []
# li_4 = []
# li_a = []
# li_5 = []
# li_6 = []
# li_7 = []
# li_8 = []

# data['cd']=data['subTag'].str.replace('','@')

# for i in range(20):
#     t = "t" + str(i)
#     data[t] = data['cd'].str.split('@').str[i]  #처음것 자르기 

# for i in range(1240):
#     t0 = data['t0'][i]
#     t0 = re.sub('<.*?>','',t0,0)
#     li_0.append(t0)
    
#     t1 = data['t1'][i]
#     t1 = re.sub('<.*?>','',t1)
#     li_1.append(t1)
#     t2 = data['t2'][i]
#     t2 = re.sub('<.*?>','',t2)
#     li_2.append(t2)
# #     t3 = data['t3'][i]
# #     t3 = re.sub('<.*?>','',t3)
# #     li_3.append(t3)
    
# dic_t0 = {"dic_t0":li_0}
# dic_t1 = {"dic_t1":li_1}
# dic_t2 = {"dic_t2":li_2}
# # dic_t3 = {"dic_t3":li_3}
# # dic_t4 = {"dic_t4":li_4}
# # dic_t5 = {"dic_t5":li_5}
# # dic_t6 = {"dic_t6":li_6}
# # dic_t7 = {"dic_t7":li_7}
# # dic_t8 = {"dic_t8":li_8}

# data['t0'] = pd.DataFrame(dic_t0)
# data['t1'] = pd.DataFrame(dic_t1)
# data['t2'] = pd.DataFrame(dic_t2)
# # data['t3'] = pd.DataFrame(dic_t3)
# # data['t4'] = pd.DataFrame(dic_t4)
# # data['t5'] = pd.DataFrame(dic_t5)
# # data['t6'] = pd.DataFrame(dic_t6)
# # data['t7'] = pd.DataFrame(dic_t7)
# # data['t8'] = pd.DataFrame(dic_t8)
# data
# #     text = re.sub('<.*?>','',text,0)
# #     li01.append(text)
# #     print(text)


data.to_excel('testTag001.xlsx')
print("success")

Comments