Bifröst: Säkra Nätverk för Distribuerad AI-Träning (I)
Forskningsprojekt, 2026
–
Distribuerad AI har vuxit fram som standardmetoden för att träna avancerade modeller som kräver enorm beräkningskapacitet och långa träningstider. AI-träningsinfrastrukturen har utvecklats från fristående högpresterande enheter till storskaliga kluster bestående av tusentals sammankopplade enheter. Dessa system kommunicerar via komplexa nätverk inom och mellan datacenter, och även över internet. Detta paradigmskifte exponerar distribuerad AI-träning för en ny klass av nätverkshot som i stor utsträckning är outforskade i litteraturen. Det här projektet gestaltar Bifröst — säkra nätverk byggda för distribuerad AI-träning. Våra mål inkluderar (1) att identifiera nya nätverksattacker mot distribuerade AI-träningssystem; (2) att utveckla ett mätramverk för att bedöma effekten av sådana attacker på träningsprestanda, angriparkostnader och modellnoggrannhet; samt (3) att utforma ett generaliserat, flerlagerbaserat försvarsramverk som integrerar åtgärder på nätverksnivå och optimering på applikationsnivå, och som erbjuder ett heltäckande skydd för distribuerad AI-träning utan att ge avkall på konkurrenskraftig prestanda.
Den ursprungliga projektplanen skisserade två strategier för att möjliggöra storskalig distribuerad AI-träning: skalning av dedikerade enheter inom sammankopplade datacenter, samt crowdsourcing av beräkningskraft från standardhårdvara. Ur ett nätverksperspektiv involverar detta flera nätverkslager. På den minsta skalan innehåller varje enhet ett intra-host-nätverk som förbinder processorer, minne och kringutrustning. Inom ett datacenter bildar tusentals sådana enheter ett intra-datacenter-nätverk, medan flera datacenter kopplas samman via inter-datacenter-nätverk (t.ex. WAN). I det yttersta lagret förbinder peer-to-peer-nätverk distribuerade standardenheter inom crowdsourcing-paradigmet.
I denna utökade beskrivning föreslår vi två kompletterande doktorandprojekt, vart och ett med fokus på olika delar av denna hierarki: (I) ett om intra-host- och intra-datacenter-nätverk, och (II) ett annat om inter-datacenter- och peer-to-peer-nätverk. Trots att de adresserar olika utmaningar och är betydelsefulla på sina respektive sätt delar de två projekten samma övergripande mål: att identifiera nya attacker, utvärdera deras inverkan och utveckla flerlagerbaserade försvarsmekanismer. Inspirerade av Bifröst stärker de två insatserna olika segment av "bryggan" och bidrar tillsammans till säkra och motståndskraftiga nätverk för distribuerad AI-träning.
(Denna text är översatt från engelska av AI)
Deltagare
Muoi Tran (kontakt)
Chalmers, Data- och informationsteknik, Dator- och nätverkssystem
Miquel Pericas
Chalmers, Data- och informationsteknik, Datorteknik
Weijia Shao
Chalmers, Data- och informationsteknik, Dator- och nätverkssystem
Finansiering
Wallenberg AI, Autonomous Systems and Software Program
Finansierar Chalmers deltagande under 2026–
Relaterade styrkeområden och infrastruktur
Informations- och kommunikationsteknik
Styrkeområden
Chalmers e-Commons (inkl. C3SE, 2020-)
Infrastruktur