Olivier Chapelle, Eren Manavoglu, Romer Rosales의 Simple and Scalable Response Prediction for Display Advertising를 번역했습니다.


초록

클릭률과 전환율은 디스플레이 광고에서 예측해야 할, 두 개의 핵심 과제이다. 본 논문은 디스플레이 광고의 세부사항을 다루기 위해 특별히 설계한 로지스틱 회귀 기반의 기계학습 프레임워크를 제시한다. 구축한 시스템은 다음과 같은 특징을 갖는다. 구현과 배포가 쉽다. 확장성이 뛰어나다(테라바이트 단위의 데이터를 훈련시켰다). 현 시점 최고 수준의 정확도를 갖춘 모형을 제공한다.

1. 개론

디스플레이 광고는 웹 페이지에 그래픽 광고를 게재해주는 게시자에게 광고주가 비용을 지불하는 온라인 광고의 한 형태이다. 디스플레이 광고는 전통적으로 광고주와 게시자 간에 미리 협의한 장기 계약 형태로 거래되었다. 게시자의 유동성이 증대하리라는 전망이 대두되고 광고주를 위해 세분화한 잠재 고객 타겟팅 기능을 통해 도달 범위가 확대되면서 현물 시장은 지난 10년 동안 인기있는 대안이 되어왔다.

현물 시장은 광고주에게 다양한 지불 옵션을 제공한다. 광고 캠페인 목표가 타겟 잠재 고객에게 메시지를 전하는 것이라면(예: 브랜드 인지도 캠페인) 타겟팅 조건을 사용하여 노출 당 비용(CPM)을 지불하는 편이 광고주에게 적합한 선택일 것이다. 그러나 다수의 광고주는 노출을 통해 사용자가 광고주 웹 사이트로 직접 이어지지 않는 이상 광고 노출 비용을 지불하지 않기를 원한다. 이런 불만을 해결하기 위해 클릭 당 비용(CPC)과 전환 당 비용(CPA) 같은 실적 의존형 지불 모델이 도입되었다. 클릭 당 비용(CPC) 모델에서는 광고주가 광고를 클릭하는 경우에만 비용을 청구한다. 전환 당 비용(CPC) 옵션은 사용자가 웹 사이트에서 미리 정의한 동작(예: 제품 구매 또는 이메일 목록 가입)을 수행한 경우에만 비용을 지불함으로써 광고주의 위험을 더욱 줄인다. 이러한 조건부 지불 옵션을 지원하는 입찰의 경우 광고주 입찰을 기대 노출 당 비용(eCPM)으로 변환해야한다. CPM 광고의 경우 eCPM은 입찰가와 동일하다. 그러나 CPC 또는 CPA 광고의 eCPM은 노출로부터 클릭 또는 전환 이벤트가 발생할 확률에 따라 달라진다. 이 확률을 정확하게 예측해내는 것이 효율적 시장을 위해 중요하다.

검색 및 검색 광고 맥락에서 클릭 모델링에 관한 연구 작업이 상당히 있었다. 그러나 디스플레이 광고에 대한 클릭과 전환 예측은 다른 종류의 문제다. 디스플레이 광고에서 경매인은 광고 내용에 쉽게 접근할 수 없다. 경매인이 광고를 호스팅하지 않을 수도 있다. 또한 광고 내용이 사용자의 속성에 따라 동적으로 생성될 수 있다. 비슷하게 광고의 방문 페이지는 경매인이 알 수 없거나 동적으로 생성된 내용을 포함할 수 있다. 최근에 광고나 방문 페이지 내용을 캡처하려는 시도가 있지만 이 경우 적지않은 노력이 필요하며 항상 가능하지도 않다. 즉, 디스플레이 광고에 대해 내용 관련, 웹 그래프와 앵커 텍스트 정보를 갖고 있지 않으므로 경매인은 광고를 대개 고유한 식별자로 나타낸다. 하루치 데이터셋에 광고 노출이 약 100억 건 존재하지만 사용자 고유 ID 수십만 개, 고유한 페이지와 고유한 광고 각각 수백만 개가 쉽게 일반화시킬 수 없는 변수와 결합하여 희소성을 주요한 문제로 만든다.

이 논문에서는 수십억 개의 샘플과 수억 개의 매개 변수로 확장 할 수있는 단순한 기계 학습 프레임 워크를 제안하고, 작은 메모리 풋 프린트로 위에 논의 된 문제를 효과적으로 해결합니다. 제안 된 프레임 워크는 Maximum Entropy(로지스틱 회귀라고도 함)는 회귀 모델을 구현하기 쉽기 때문에 볼 수 있듯이 피쳐 수에 따라 적절히 비율을 조정할 수 있고 효율적으로 병렬 처리 할 수 있습니다. 최대 엔트로피 모델은 증분 모델 업데이트가 간단하고 쉽게 통합 될 수있는 탐색 전략이 있기 때문에 또한 유리합니다. 자동화를 강화하고 도메인 전문성에 대한 필요성을 줄이기 위해 2 단계 형상 선택 알고리즘이 제공됩니다. 일반화 된 상호 정보 방법을 사용하여 모델에 포함될 형상 그룹을 선택합니다. 모델의 크기를 조절하는 기능 해싱 등이 있습니다.

실제 트래픽 데이터에 대한 대규모 실험 결과는 우리의 프레임 워크가 디스플레이 광고에 사용되는 최첨단 모델보다 뛰어나다는 것을 보여줍니다. 우리는 이러한 결과와 제안 된 프레임 워크의 단순성이 디스플레이 광고의 반응 예측을위한 기준으로 삼을 수 있다고 믿습니다.

이 논문의 나머지 부분은 다음과 같이 구성되어 있습니다 : 2 절에서는 관련 연구에 대해 논의합니다. 섹션 3에서는 클릭률과 전환율의 차이를 클릭 수와 전환 수 간의 지연을 분석하고 분석합니다. 섹션 4는 우리의 프레임 워크에서 사용 된 최대 엔트로피 모델, 특징 및 해싱 트릭을 설명합니다. 이 섹션에서는 평활화와 정규화가 점근 적으로 유사하다는 것을 보여줍니다. 우리는 5 장에서 제안 된 모델링 기법의 결과를 제시한다. 6 장에서는 피쳐 그룹을 선택하고 실험 결과를 제공하기 위해 상호 정보의 수정 된 버전을 소개한다. 우리의 분석에 의해 동기 부여 된 7 장에서 우리는 탐사 알고리즘을 제안한다. 8 장은 제안 된 모델에 대한 효과적인 map-reduce 구현을 설명한다. 마지막으로 결과를 요약하고 9 절에서 결론을 맺습니다.

(번역 중)