• 해석가능한 XGBoost 기계학습

    Scott Lundberg의 Interpretable Machine Learning with XGBoost를 번역했습니다. 기계 학습 모형을 잘못 해석할 때의 위험성 그리고 올바르게 해석할 때의 가치에 관한 이야기다. 그래디언트 부스팅 머신이나 랜덤 포레스트 같은 앙상블 트리 모형의 굳건한 정확도를 확인했다면, 또 결과를 해석해야 한다면 유익하고 도움이 될 내용이다. 은행에서 고객의 재정 상태를 예측하는 업무가 있다고 상상해보자....


  • 디스플레이 광고를 위한 단순하고 확장 가능한 응답 예측

    Olivier Chapelle, Eren Manavoglu, Romer Rosales의 Simple and Scalable Response Prediction for Display Advertising를 번역했습니다. 초록 클릭률과 전환율은 디스플레이 광고에서 예측해야 할, 두 개의 핵심 과제이다. 본 논문은 디스플레이 광고의 세부사항을 다루기 위해 특별히 설계한 로지스틱 회귀 기반의 기계학습 프레임워크를 제시한다. 구축한 시스템은 다음과 같은 특징을 갖는다. 구현과 배포가 쉽다....


  • 판다스 코드 속도 최적화를 위한 초보자 안내서

    Sofia Heisler의 A Beginner’s Guide to Optimizing Pandas Code for Speed를 번역했습니다. 파이썬으로 데이터 분석을 했다면 Wes McKinney가 작성한 환상적인 분석 라이브러리 판다스를 아마 사용해봤을 거다. 판다스는 데이터 프레임 분석 기능을 파이썬에 부여함으로써 파이썬을 R이나 SAS 같은 기존 분석 도구와 어깨를 나란히 하게 만들었다. 불행히도 초기 판다스는 “느리다”는 불쾌한 평판을...


  • LightGBM 고효율 그래디언트 부스팅 결정 트리

    Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, Tie-Yan Liu의 LightGBM: A Highly Efficient Gradient Boosting Decision Tree을 번역했습니다. 초록 그래디언트 부스팅 결정 트리(GBDT)는 널리 사용하는 기계 학습 알고리즘이며 XGBoost와 pGBRT 같이 효율적으로 구현해놓은 것들이 몇 가지 있다. 해당 구현은 엔지니어링의 많은 요소를 최적화시켰지만...


  • 아파치 에어플로우로 작업흐름 개발해보기

    Michal Karzynski의 Get Started Developing Workflows with Apache Airflow을 번역했습니다. Apache Airflow는 복잡한 계산을 요하는 작업흐름과 데이터 처리 파이프라인을 조율하기 위해 만든 오픈소스 도구이다. 길이가 긴 스크립트 실행을 cron으로 돌리거나 빅데이터 처리 배치 작업을 정기적으로 수행하려고 할 때 Airflow가 도움이 될 수 있다. 이 포스트는 Airflow를 이용하여 파이프라인을 구현해보려고 시도하는...