In de afgelopen maanden hebben we een mooi aantal toffe cases gelanceerd in de McDonalds België app. Om dit jaar op een unieke manier af te sluiten creëerden we een end-of-year campagne met een op kerst geïnspireerde branded overworld, geintegreerd in de bestaande app van McDonald's België. Deze interactieve omgeving, ontworpen als een online adventskalender, biedt gebruikers een reeks unieke experiences, die elk op een specifieke datum worden ontgrendeld. Een van deze experiences is de McDo LipSync, die de mogelijkheden van AI-technologie in het creëren van user generated content toont. In dit artikel duiken we dieper in op de techniek achter deze online activatie.
McDo LipSync experience
De McDo LipSync-functie stelt gebruikers in staat een liedje te selecteren en een foto van een persoon te uploaden. Met behulp van het geavanceerde AI-model SadTalker, animeert de app de persoon op de foto om het gekozen liedje te playbacken, waardoor een gepersonaliseerde video ontstaat. Deze functie verhoogt niet alleen de betrokkenheid van de gebruiker, maar toont ook de innovatieve toepassing van AI in digitale marketing.
De technologie achter McDo LipSync: SadTalker
SadTalker is een AI-model ontwikkeld door een team van Xi'an Jiaotong Universiteit en Tencent AI Lab. Het model genereert talking head-video's vanuit een enkele foto van een gezicht en een audiobestand met vocalen. Traditionele methoden kenden vaak uitdagingen zoals onnatuurlijke hoofdbewegingen en vervormde gezichtsuitdrukkingen. SadTalker pakt deze problemen aan door 3D-bewegingscoëfficiënten (hoofdhouding, expressie) te genereren uit audio en gebruikt een nieuwe 3d-render voor realistischere animaties.
Kerncomponenten van SadTalker
ExpNet: Een netwerk dat gezichtsuitdrukkingen nauwkeurig leert van audio.
PoseVAE: Een conditional variational auto-encoder, ontworpen om hoofdbeweging in verschillende stijlen te synthetiseren. Waardoor de natuurlijkheid van de hoofdbewegingen wordt verhoogd.
3D-aware face render: Dit onderdeel brengt de gegenereerde 3D-bewegingscoëfficiënten in kaart op een ongecontroleerde 3D keypoints space, waardoor de uiteindelijke video wordt gecreëerd met verhoogd realisme.
Voordelen van SadTalker
Realistische beweging: Door individueel de verbindingen tussen audio en verschillende soorten bewegingscoëfficiënten te modelleren, bereikt SadTalker levensechtere animaties.
Veelzijdigheid: Het kan video's produceren in verschillende talen, stijlen en zelfs specifieke functies zoals oog knipperen beheersen.
Kwaliteitsborging: Uitgebreide experimenten op datasets zoals HDTF en VoxCeleb2 tonen zijn superioriteit in beweging en videokwaliteit.
De beperkingen van SadTalker
Hoewel SadTalker een aanzienlijke vooruitgang vertegenwoordigt in AI-gestuurde animatie, is het essentieel om de beperkingen te erkennen. Een grote uitdaging is de videokwaliteit, met name qua resolutie. Hoewel SadTalker uitblinkt in het renderen van realistische bewegingen en uitdrukkingen, zijn de uitvoervideo's niet altijd van hoge resolutie. Deze beperking kan worden toegeschreven aan de complexiteit die gepaard gaat met het genereren van gedetailleerde texturen en fijne kenmerken in hogere resoluties terwijl real-time prestaties behouden blijven.
Een ander aandachtspunt is de balans tussen realistische bewegingen en het behoud van de oorspronkelijke identiteit van de persoon op de foto. Hoewel SadTalker bedreven is in het creëren van levensechte animaties, is het een voortdurende uitdaging om ervoor te zorgen dat het geanimeerde gezicht de unieke kenmerken van het originele beeld behoudt zonder vervorming. Dit aspect is cruciaal voor toepassingen zoals de McDo LipSync, waar personalisatie een sleutelcomponent van de gebruikerservaring is.
Conclusie
Deze campagne voor McDonald's België toont het praktische gebruik van technologie in marketing campagnes. Dit project dient als een duidelijk voorbeeld van hoe doordachte integratie van technologie een leuke en persoonlijke toets kan geven aan de engagement.