일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 파이썬
- 과학백과사전
- Websocket
- java
- 이력서
- r
- lda
- test
- Python
- word2vec
- RESFUL
- oracle
- 토픽추출
- (깃)git bash
- db
- 幼稚园杀手(유치원킬러)
- 크롤링
- tomoto
- Gmarket
- 자바
- Topics
- spring MVC(모델2)방식
- 게시판 만들기
- jsp 파일 설정
- 네이버뉴스
- mysql
- pytorch
- 코사인 유사도
- 방식으로 텍스트
- 지마켓
- Today
- Total
무회blog
파이썬 파일 전처리 0424 본문
import pandas as pd
import numpy as np
import time
import re
# data = pd.read_csv("./testTag001.csv", names=["subTag"])
data = pd.read_csv("./기타/testYY001.csv", names=["subTag"])
data['cd']=data['subTag'].str.replace('','@')
# data['cda']=data['subTag'].str.replace('','@')
# data[t] = data['cd'].str.split('@').str[0]
data['a'] = data['cd'].str.split('@').str[0]
data['b'] = data['cd'].str.split('@').str[1]
data['c'] = data['cd'].str.split('@').str[2]
data['d'] = data['cd'].str.split('@').str[3]
data['e'] = data['cd'].str.split('@').str[4]
data['f'] = data['cd'].str.split('@').str[5]
data['g'] = data['cd'].str.split('@').str[6]
# text = data['cd'][0]
# text = data['cd'][1239]
# text = re.sub('<.*?>','',text,0)
# print(text)
# print(type(data['cd'][0]))
# data['cd'][0] = text
for i in range(1240):
tt = data['cd'][i]
text = re.sub('<.*?>','',tt)
data['cd'][i] = text
for i in range(1240):
a = data['a'][i]
a = re.sub('<.*?>','',a)
data['a'][i] = a
b = data['b'][i]
b = re.sub('<.*?>','',b)
data['b'][i] = b
c = data['c'][i]
c = re.sub('<.*?>','',c)
data['c'][i] = c
# for i in range(1240):
# d = data['d'][i]
# d = re.sub('<.*?>','',d)
# data['d'][i] = d
# d = data['d'][i]
# d = re.sub('<.*?>','',d)
# data['d'][i] = d
# e = data['e'][i]
# e = re.sub('<.*?>','',e)
# data['e'][i] = e
# f = data['f'][i]
# f = re.sub('<.*?>','',f)
# f['f'][i] = text
data
# # print(data['c1'].size) # 1240
# # st = data['subTag'].values
# li_0 = []
# li_1 = []
# li_2 = []
# li_3 = []
# li_4 = []
# li_a = []
# li_5 = []
# li_6 = []
# li_7 = []
# li_8 = []
# data['cd']=data['subTag'].str.replace('','@')
# for i in range(20):
# t = "t" + str(i)
# data[t] = data['cd'].str.split('@').str[i] #처음것 자르기
# for i in range(1240):
# t0 = data['t0'][i]
# t0 = re.sub('<.*?>','',t0,0)
# li_0.append(t0)
# t1 = data['t1'][i]
# t1 = re.sub('<.*?>','',t1)
# li_1.append(t1)
# t2 = data['t2'][i]
# t2 = re.sub('<.*?>','',t2)
# li_2.append(t2)
# # t3 = data['t3'][i]
# # t3 = re.sub('<.*?>','',t3)
# # li_3.append(t3)
# dic_t0 = {"dic_t0":li_0}
# dic_t1 = {"dic_t1":li_1}
# dic_t2 = {"dic_t2":li_2}
# # dic_t3 = {"dic_t3":li_3}
# # dic_t4 = {"dic_t4":li_4}
# # dic_t5 = {"dic_t5":li_5}
# # dic_t6 = {"dic_t6":li_6}
# # dic_t7 = {"dic_t7":li_7}
# # dic_t8 = {"dic_t8":li_8}
# data['t0'] = pd.DataFrame(dic_t0)
# data['t1'] = pd.DataFrame(dic_t1)
# data['t2'] = pd.DataFrame(dic_t2)
# # data['t3'] = pd.DataFrame(dic_t3)
# # data['t4'] = pd.DataFrame(dic_t4)
# # data['t5'] = pd.DataFrame(dic_t5)
# # data['t6'] = pd.DataFrame(dic_t6)
# # data['t7'] = pd.DataFrame(dic_t7)
# # data['t8'] = pd.DataFrame(dic_t8)
# data
# # text = re.sub('<.*?>','',text,0)
# # li01.append(text)
# # print(text)
data.to_excel('testTag001.xlsx')
print("success")
'Python' 카테고리의 다른 글
python: 파이썬 특정 문자 개수 세어 보기 (0) | 2020.04.26 |
---|---|
requets Beautiful Soup 로 네이버 실시간 검색어 크롤링(스크래핑) 하기 (2) | 2020.04.25 |
python: python 판다스 파일 쓰기 (0) | 2020.04.23 |
python 파이썬 , 판다스 파이썬 파일 읽기 CSV (0) | 2020.04.23 |
python # test 06, 스크롤_크롤링 (0) | 2020.04.23 |