• 비지도 학습을 이용한 이상 거래 탐지

    IEEE-CIS Fraud Detection with Unsupervised Learning Goals The prediction performances and computation times of various unsupervised learning anomaly detection algorithms such as Isolation Forest, COPOD, and Random Cut Forest, are compared. (Optional) Altair is applied for the purpose of drawing interactive plots during EDA. Requirement The dataset can be downloaded...


  • 복잡한 대규모 데이터 세트의 분석에 대한 실무 조언

    Patrick Riley의 Practical advice for analysis of large, complex data sets을 번역했습니다. 나는 Google 검색 로그를 다루는 데이터 과학 팀을 몇 년 간 이끌었다. 우리 팀은 복잡한 결과에 대해 이유를 찾고, 행동 로그를 통해 새로운 현상을 관측하고, 다른 사람이 수행한 분석을 검증하고, 사용자 행동 지표를 해석해달라는 요청을 종종 받았다. 어떤...


  • 뉴스 기사 개인화 추천을 위한 컨텍스츄얼 밴딧 접근법

    Lihong Li, Wei Chu, John Langford, Robert E. Schapire의 A Contextual-Bandit Approach to Personalized News Article Recommendation을 번역했습니다. 초록 개인화 웹 서비스는 콘텐츠 및 사용자 정보를 이용해서 개별 사용자에게 (광고, 뉴스 기사 등의) 맞춤 서비스를 제공하기 위해 노력한다. 최신 기술의 발전에도 불구하고 적어도 두 가지 이유로 여전히 난항을 겪고 있다....


  • 암시적 행렬 분해(고전적인 ALS 방법) 소개와 LightFM을 이용한 순위 학습

    Ethan Rosenthal의 Intro to Implicit Matrix Factorization: Classic ALS with Sketchfab Models 외 1편을 번역했습니다. 암시적 행렬 분해 소개: Sketchfab 모델에 적용한 고전적인 ALS 방법 지난 글에서 웹사이트 Sketchfab로부터 암시적 피드백 데이터를 수집하는 방법에 대해 설명했다. 그리고 이 데이터를 사용해 추천 시스템을 실제 구현해보겠다고 이야기했다. 자, 이제 만들어보자! 암시적 피드백을...


  • 하이브에서의 조인 유형

    Weidong Zhou의 Join Type in Hive: Common Join 외 3편을 번역했습니다. 1. 일반 조인 하이브 쿼리 성능 튜닝에서 신경 써야 할 부분 중 하나는 쿼리 실행 시 이뤄지는 조인 유형이다. 오라클의 조인 유형과 마찬가지로 여러 다른 유형에 따라 실행 시간이 크게 달라질 수 있다. 몇 번의 연재에 걸쳐 하이브의 조인...