파이썬 파일 전처리 0424

import time
import re

# data = pd.read_csv("./testTag001.csv", names=["subTag"])
data = pd.read_csv("./기타/testYY001.csv", names=["subTag"])

data['cd']=data['subTag'].str.replace('','@')
# data['cda']=data['subTag'].str.replace('','@')
# data[t] = data['cd'].str.split('@').str[0]
data['a'] = data['cd'].str.split('@').str[0]
data['b'] = data['cd'].str.split('@').str[1]
data['c'] = data['cd'].str.split('@').str[2]
data['d'] = data['cd'].str.split('@').str[3]
data['e'] = data['cd'].str.split('@').str[4]
data['f'] = data['cd'].str.split('@').str[5]
data['g'] = data['cd'].str.split('@').str[6]

# text = data['cd'][0]
# text = data['cd'][1239]
# text = re.sub('<.*?>','',text,0)
# print(text)

# print(type(data['cd'][0]))
# data['cd'][0] = text

for i in range(1240):
    tt = data['cd'][i]
    text = re.sub('<.*?>','',tt)
    data['cd'][i] = text

for i in range(1240):
    a = data['a'][i]
    a = re.sub('<.*?>','',a)
    data['a'][i] = a
    b = data['b'][i]
    b = re.sub('<.*?>','',b)
    data['b'][i] = b
    c = data['c'][i]
    c = re.sub('<.*?>','',c)
    data['c'][i] = c
# for i in range(1240):
#     d = data['d'][i]
#     d = re.sub('<.*?>','',d)
#     data['d'][i] = d
#     d = data['d'][i]
#     d = re.sub('<.*?>','',d)
#     data['d'][i] = d
#     e = data['e'][i]
#     e = re.sub('<.*?>','',e)
#     data['e'][i] = e
#     f = data['f'][i]
#     f = re.sub('<.*?>','',f)
#     f['f'][i] = text



data

# # print(data['c1'].size)  # 1240
# # st = data['subTag'].values
# li_0 = []
# li_1 = []
# li_2 = []
# li_3 = []
# li_4 = []
# li_a = []
# li_5 = []
# li_6 = []
# li_7 = []
# li_8 = []

# data['cd']=data['subTag'].str.replace('','@')

# for i in range(20):
#     t = "t" + str(i)
#     data[t] = data['cd'].str.split('@').str[i]  #처음것 자르기

# for i in range(1240):
#     t0 = data['t0'][i]
#     t0 = re.sub('<.*?>','',t0,0)
#     li_0.append(t0)

#     t1 = data['t1'][i]
#     t1 = re.sub('<.*?>','',t1)
#     li_1.append(t1)
#     t2 = data['t2'][i]
#     t2 = re.sub('<.*?>','',t2)
#     li_2.append(t2)
# #     t3 = data['t3'][i]
# #     t3 = re.sub('<.*?>','',t3)
# #     li_3.append(t3)

# dic_t0 = {"dic_t0":li_0}
# dic_t1 = {"dic_t1":li_1}
# dic_t2 = {"dic_t2":li_2}
# # dic_t3 = {"dic_t3":li_3}
# # dic_t4 = {"dic_t4":li_4}
# # dic_t5 = {"dic_t5":li_5}
# # dic_t6 = {"dic_t6":li_6}
# # dic_t7 = {"dic_t7":li_7}
# # dic_t8 = {"dic_t8":li_8}

# data['t0'] = pd.DataFrame(dic_t0)
# data['t1'] = pd.DataFrame(dic_t1)
# data['t2'] = pd.DataFrame(dic_t2)
# # data['t3'] = pd.DataFrame(dic_t3)
# # data['t4'] = pd.DataFrame(dic_t4)
# # data['t5'] = pd.DataFrame(dic_t5)
# # data['t6'] = pd.DataFrame(dic_t6)
# # data['t7'] = pd.DataFrame(dic_t7)
# # data['t8'] = pd.DataFrame(dic_t8)
# data
# #     text = re.sub('<.*?>','',text,0)
# #     li01.append(text)
# #     print(text)

data.to_excel('testTag001.xlsx')
print("success")

'Python' 카테고리의 다른 글

python: 파이썬 특정 문자 개수 세어 보기 (0)	2020.04.26
requets Beautiful Soup 로 네이버 실시간 검색어 크롤링(스크래핑) 하기 (2)	2020.04.25
python: python 판다스 파일 쓰기 (0)	2020.04.23
python 파이썬 , 판다스 파이썬 파일 읽기 CSV (0)	2020.04.23
python # test 06, 스크롤_크롤링 (0)	2020.04.23

'Python' Related Articles

Comments

무회blog

파이썬 파일 전처리 0424 본문

파이썬 파일 전처리 0424

'Python' 카테고리의 다른 글

티스토리툴바