Off-Policy Evaluation with Out-of-Sample Guarantees

Sofia Ek; Dave Zachariah; Fredrik Johansson; Petre Stoica

Off-Policy Evaluation with Out-of-Sample Guarantees
Artikel i vetenskaplig tidskrift, 2023

We consider the problem of evaluating the performance of a decision policy using past observational data. The outcome of a policy is measured in terms of a loss (aka. disutility or negative reward) and the main problem is making valid inferences about its out-of-sample loss when the past data was observed under a different and possibly unknown policy. Using a sample-splitting method, we show that it is possible to draw such inferences with finitesample coverage guarantees about the entire loss distribution, rather than just its mean. Importantly, the method takes into account model misspecifications of the past policy – including unmeasured confounding. The evaluation method can be used to certify the performance of a policy using observational data under a specified range of credible model assumptions.

Författare

Sofia Ek

Uppsala universitet

Dave Zachariah

Uppsala universitet

Fredrik Johansson

Chalmers, Data- och informationsteknik, Data Science och AI

Göteborgs universitet

Forskning Andra publikationer

Petre Stoica

Uppsala universitet

Transactions on Machine Learning Research

28358856 (eISSN)

Vol. 2023

Ämneskategorier (SSIF 2025)

Sannolikhetsteori och statistik

Mer information

Senast uppdaterat

2025-11-17

Om du har frågor, behöver hjälp, hittar en bugg eller vill ge feedback kan du göra det här nedan. Du når oss också direkt per e-post research.lib@chalmers.se.

Meddelande

Din e-postadress

Research.chalmers.se innehåller information om forskning på Chalmers, publikationer och projekt inklusive information om finansiärer och samarbetspartners.

Läs mer om tjänsten, täckningsgrad och vilka som kan se informationen

Personuppgifter och cookies

Tillgänglighet

Citation Style Language
citeproc-js (Frank Bennett)

Chalmers bibliotek

Chalmers forskning

Chalmers examensarbeten

412 96 GÖTEBORG
TELEFON: 031-772 10 00
WWW.CHALMERS.SE

Off-Policy Evaluation with Out-of-Sample Guarantees Artikel i vetenskaplig tidskrift, 2023

Författare

Sofia Ek

Dave Zachariah

Fredrik Johansson

Petre Stoica

Transactions on Machine Learning Research

Ämneskategorier (SSIF 2025)

Mer information

Senast uppdaterat

Off-Policy Evaluation with Out-of-Sample Guarantees
Artikel i vetenskaplig tidskrift, 2023