일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 코사인 유사도
- word2vec
- 토픽추출
- r
- 과학백과사전
- Websocket
- 자바
- db
- pytorch
- spring MVC(모델2)방식
- 크롤링
- 방식으로 텍스트
- mysql
- Topics
- oracle
- 이력서
- 파이썬
- Python
- Gmarket
- 네이버뉴스
- (깃)git bash
- test
- java
- RESFUL
- jsp 파일 설정
- tomoto
- lda
- 지마켓
- 게시판 만들기
- 幼稚园杀手(유치원킬러)
- Today
- Total
목록Python (125)
무회 Blog
In [1]: # Word2Vec embedding # from gensim.models import Word2Vec from gensim.models.word2vec import Word2Vec from gensim.models import KeyedVectors from gensim import models from collections import defaultdict from gensim import corpora from gensim import similarities from gensim.summarization import summarize import pandas as pd import time, timeit, os, sys , re , math from nltk import sent_to..
보호되어 있는 글입니다.
In [1]: from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, HashingVectorizer from sklearn.metrics.pairwise import linear_kernel ,cosine_similarity from konlpy.tag import Twitter twitter = Twitter() # 엑셀 vlookup 방식으로 title 과 content 내용을 출력 하기 import pandas as pd pd.options.mode.chained_assignment = None import numpy as np np.random.seed(0) # 랜덤 난수를 지정하여 사용 from collecti..
0003-scikit-lear,방식으로 텍스트 ,코사인 유사도, 구하기-004¶ scikit-learn 001 방식 체크¶ In [1]: from sklearn.metrics.pairwise import cosine_similarity a=[[1,3,2],[2,2,1]] cosine_similarity(a) # 余弦相似度 Out[1]: array([[1. , 0.89087081], [0.89087081, 1. ]]) In [2]: from sklearn.metrics.pairwise import pairwise_distances pairwise_distances(a,metric="cosine") # 注意该方法返回的是余弦距离 Out[2]: array([[0. , 0.10912919], [0.10912919..