전체 글 4

[CatBoost] CatBoost 알고리즘에 대한 이해

안녕하세요 헤오니입니다! 오늘은 분류 모델 CatBoost의 알고리즘에 대해 알아보고 또다른 부스팅 알고리즘인 LightGBM 과 간단하게 비교해보는 포스팅을 해보려고 합니다. 참고자료 https://hanishrohit.medium.com/whats-so-special-about-catboost-335d64d754ae https://affine.ai/catboost-a-new-game-of-machine-learning/ Affine - CatBoost – A new game of Machine Learning Gradient Boosted Decision Trees and Random Forest are one of the best ML models for tabular heterogeneous da..

Machine Learning 2021.08.04

Cross Validation(교차검증)의 종류와 특징 파헤치기🎯

안녕하세요, 헤오니 입니다. 오늘은 Cross Validation(교차검증)의 종류와 그 특징에 대해서 알아보려고 합니다. Cross Validation은 ML/DL 모델링 과정에서 모델이 overfitting(과적합)이 되는 현상을 방지하기 위해 사용하는 기법입니다. 만약 CV를 하지 않는다면, 우리는 임의로 train set과 test set을 나누어 모델 성능 평가를 진행합니다. 즉, train set 한 개, test set 한 개로 성능평가를 진행하는 것으로, 이렇게 되면 모델 성능이 해당 test set에만 과도하게 적합될 가능성이 높습니다. 그러면 새로운, 기존의 test set과 다른 test set으로 예측을 하면 성능 저하가 나타나는 것이죠! 이를 방지하기 위해 머신러닝, 딥러닝에서는 ..

Machine Learning 2021.07.27

손실함수(Loss function)의 통계적 분석

안녕하세요 헤오니 입니다! 오늘은 첫 포스팅으로 머신러닝/딥러닝의 기본기를 다시 한 번 다지기 위해 손실함수(Loss function) 에 대해 낱낱이 다루는 내용을 준비했습니다. 0. 들어가며 지금까지 머신러닝, 딥러닝 모델 코드를 짤 때 성능 평가를 위해 분류면 categorical crossentropy, accuracy를 써야지~ 회귀면 MSE 써야지~ 하고 별 다른 생각 없이 손실함수를 쓴 경우가 종종 있습니다. 머신러닝과 딥러닝의 가장 기본이면서 중요한 개념인 손실함수의 개념, 손실함수 최소화 원리에 대해 정확히 이해하기 위해 본 포스팅에서 다뤄보고자 합니다. 1. 손실함수(Loss Function) 란? 머신러닝/딥러닝 모델을 이용해 target을 예측할 때 우리는 성능평가라는 것을 합니다...

Back to Basics 2021.07.05

데이터분석 공부기록 시작, 그 이유📚

안녕하세요 헤오니입니다 :) 이제부터 새로운 개발 블로그를 운영하려고 합니다. 지금까지 https://hyewonleess.github.io/라는 깃허브 블로그를 운영했습니다만,,, 제 깃허브 블로그의 구글 사이트맵 설정 오류 문제가 잘 해결되지 않았습니다. 물론 이것은 매우 사소한! 이유입니다. 티스토리가 깃허브 블로그에 비해 가독성도 좋고, 페이지 디자인도 더 깔끔한 것이 제 스타일이었기 때문에 ㅎㅎ 이 곳에서 새로운 개발 블로그를 시작하기로 마음먹었습니다. Introduction 먼저 제 소개를 해볼까 합니다. 저는 고려대학교 수학과를 졸업하고 고려대학교 통계학과 석사과정에 재학 중입니다. 데이터 분석의 길을 가야지! 하고 결심한 것은 2년이 채 되지 않아 아직 많이 부족합니다. 그래서 더욱더 열심..

About 2021.06.20
출처: https://privatedevelopnote.tistory.com/81 [개인노트]