Identifiable Latent Bandits: Leveraging observational data for personalized decision-making

Ahmet Zahid Balcioglu; Newton Mwai Kinyanjui; Emil Carlsson; Fredrik Johansson

Identifiable Latent Bandits: Leveraging observational data for personalized decision-making
Artikel i vetenskaplig tidskrift, 2026

Sequential decision-making algorithms such as multi-armed bandits can find optimal personalized decisions, but are notoriously sample-hungry. In personalized medicine, for example, training a bandit from scratch for every patient is typically infeasible, as the number of trials required is much larger than the number of decision points for a single patient. To combat this, latent bandits offer rapid exploration and personalization beyond what context variables alone can offer, provided that a latent variable model of problem instances can be learned consistently. However, existing works give no guidance as to how such a model can be found. In this work, we propose an identifiable latent bandit framework that leads to optimal decision-making with a shorter exploration time than classical bandits by learning from historical records of decisions and outcomes. Our method is based on nonlinear independent component analysis that provably identifies representations from observational data sufficient to infer optimal actions in new bandit instances. We verify this strategy in simulated and semi-synthetic environments, showing substantial improvement over online and offline learning baselines when identifying conditions are satisfied.

Författare

Ahmet Zahid Balcioglu

Chalmers, Data- och informationsteknik, Data Science och AI

Göteborgs universitet

Forskning Andra publikationer

Newton Mwai Kinyanjui

Chalmers, Data- och informationsteknik, Data Science och AI

Göteborgs universitet

Forskning Andra publikationer

Emil Carlsson

Sleep Cycle

Fredrik Johansson

Göteborgs universitet

Chalmers, Data- och informationsteknik, Data Science och AI

Forskning Andra publikationer

Transactions on Machine Learning Research

28358856 (eISSN)

Vol. 2026-May

Ämneskategorier (SSIF 2025)

Robotik och automation

Datavetenskap (datalogi)

Reglerteknik

Mer information

Senast uppdaterat

2026-05-25

Identifiable Latent Bandits: Leveraging observational data for personalized decision-making Artikel i vetenskaplig tidskrift, 2026

Författare

Ahmet Zahid Balcioglu

Newton Mwai Kinyanjui

Emil Carlsson

Fredrik Johansson

Transactions on Machine Learning Research

Ämneskategorier (SSIF 2025)

Mer information

Senast uppdaterat

Identifiable Latent Bandits: Leveraging observational data for personalized decision-making
Artikel i vetenskaplig tidskrift, 2026