인공지능 (22) 썸네일형 리스트형 1-2. EDA To Prediction https://ekdud7667.tistory.com/42?category=897373 1-1. 타이타닉 튜토리얼1 import & data 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.style.use('seaborn') sns.set(font_scale=2.5) # 이.. ekdud7667.tistory.com 1.2부터는 튜토리얼과 EDA가 겹치는 부분이 많아, 겹치는 부분은 설명 없이 진행하려 합니다. EDA의 자세한 설명은 튜토리얼 링크에서 참고하세요. 1. EDA 1 2 3 4 5 6 7 8 9 10 1.. KNN CF(Collaborative Filtering) 구현 KNN을 2가지 방법으로 구현하겠다. 참고한 출처는 맨밑에 있다. (팀블로그 :데이터 맛집 에도 게시한 내용입니다.) 1. sklearn패키지 이용 2. 코드 구현 1. sklearn패키지 사용 Import & Data df는 rating, movie 데이터로 만든 데이터 프레임이다. rating을 하나도 못받은 영화의 경우, df_rating movie id가 존재하지 않기 때문에 df 데이터프레임을 만들었다. 1 2 3 4 5 6 7 8 9 10 import pandas as pd import numpy as np import glob import matplotlib.pyplot as plt from matplotlib.backends.backend_pdf import PdfPages import t.. 1-1. 타이타닉 튜토리얼1 import & data 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.style.use('seaborn') sns.set(font_scale=2.5) # 이 두줄은 본 필자가 항상 쓰는 방법입니다. matplotlib 의 기본 scheme 말고 seaborn scheme 을 세팅하고, 일일이 graph 의 font size 를 지정할 필요 없이 seaborn 의 font_scale 을 사용하면 편합니다. import missingno as msno import warnings warnings.filterwarnin.. 최대우도추정 [https://ratsgo.github.io/statistics/2017/09/23/MLE/](https://ratsgo.github.io/statistics/2017/09/23/MLE/) [https://datascienceschool.net/view-notebook/dc6528fbf3ed4f9885e243198ef7694c/] 최대우도추정 최대우도추정(maximum likelihood estimation)이란 모수(parameter)가 미지의 θ인 확률분포에서 뽑은 표본(관측치) x들을 바탕으로 θ를 추정하는 기법입니다. 다시말해, 표본들을 보고 모수를 추정하는 것이다. 동전 던지기를 예를 들어보자. 동전 던지기는 이항분포를 따르며, 앞면이 나올 확률 p와 뒷면이 나올 확률 1-p로 이뤄진다. 이항.. Collaborative Filtering for Implicit Feedback Datasets implicit한 feedback을 추가해서 추천시스템을 만들 수 있다. * purchase history, browsing history, search patterns, mouse movements.. implicit feedbak의 특징 1. negative 한 feedback이 없다. implicit feedback을 보고 user가 좋아하는지, 좋아하지 않는지 알 수 없다. 유저가 어떤 영화를 봤지만 싫어할 수 있기 때문이다. missing data의 경우 부정적인 피드백일 가능성이 높기 때문에 missing data에 대해서 어떻게 처리를 할지 고려해야 한다.(missing data= no action) 2. 근본적으로 nosiy가 많다. 예를 들어, 한 아이템을 구매했지만 선물용으로 구매했을 .. Bias-Variance, underfitting-overfitting trade off 이 게시글은 팀블로그에서 참고했다. Bias- Variance 2. 편향-분산 트레이드 오프 (Bias-Variance trade off) 안녕하십니까 허브솔트입니다. 지난 시간에는 앙상블의 알고리즘들에 대해 알아보았는데요, 오늘은 편향 분산 트레이드 오프에 대해 공부해 볼께요! 편향 분산 트레이드 오프는 비단 앙상블에만 적용되는 것이 아.. data-matzip.tistory.com 딥러닝 머신러닝에서 underfitting과 overfitting의 트레이드 오프는 최종 성능에 중요한 역할을 한다. 이를 이해하기 위해선 Bias-Variance의 트레이드 오프 관계를 알아야 한다. 그럼 우선 Bias- variance를 알아보고 underfitting과 overfitting을 알아보자. 편향-분산 - .. [CB Filtering] 2. 키워드 수집 Content based Filtering은 팀블로그에서 참고했다. Content based Filtering [CB Filtering] 1. 개요 Content-based Filtering vs Collaborative Filtering Content-based Filtering - 유저가 과거에 좋아했던 것과 컨텐츠가 유사한 아이템 추천 Collaborative Filtering - Rating을 기반으로 유저와 비슷한 성향을.. data-matzip.tistory.com 위의 그림이 저번에도 게시했던 CF알고리즘의 개요이다. 여기서 빨간 부분인, content를 어떻게 수집할지에 대한 '키워드 수집' 내용을 다루겠다. 키워드 수집을 할 때 대부분 TF-IDF를 활용한 vector space mode.. [Ensemble] 개요(Bagging, Boosting, Stacking) 아래의 포스팅은 팀블로그인 '데이터 맛집'에서 참고한 내용입니다. 팀블로그-앙상블 기법정리 [앙상블 기법 정리] 1. 앙상블(Ensemble) 기법과 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 안녕하세요, 허브솔트에요. 저희 데이터맛집의 허브솔트 첫 글 주제로 앙상블이 당첨됐네요...! 요새 캐글의 상위권 메달을 휩쓸고 있는 대세 알고리즘이 앙상블 기법을 사용한 알고리즘의 한 종류인 XGBoost라죠?.. data-matzip.tistory.com 앙상블은 여러 모델, 알고리즘을 결합하여 학습시키는 것으로 overfitting, underfitting을 예방하고 예측력을 보완시키는 등의 single로 사용할 경우 나타내는 단점들을 보완한다. Bagging Bagging은 .. 이전 1 2 3 다음