nicole_bellezza — attrice virtuale
Nicole Bellezza è una persona reale che ha prestato la propria immagine per la creazione del personaggio AI del film. Le sue fotografie sono state usate per addestrare un modello di generazione di immagini con Stable Diffusion / SDNext, producendo un'attrice virtuale che ne mantiene le sembianze. KlingAI ha animato le immagini generate, LocalAI ha sintetizzato la voce. Questa pagina documenta il processo tecnico e mostra alcune delle fotografie usate per l'addestramento.
Il processo tecnico
Per addestrare il modello sono state selezionate circa 20–30 fotografie della persona reale, scattate in condizioni di luce, angolazione e contesto molto diversi tra loro. La varietà è essenziale: un dataset troppo omogeneo produce un embedding rigido, incapace di generalizzare a nuove pose o illuminazioni.
Il processo di Textual Inversion, eseguito localmente con SDNext, allena un nuovo token — in questo caso il trigger word `nicole_bellezza` — associandolo alle caratteristiche visive estratte dal dataset. Il modello base (Stable Diffusion) rimane invariato: viene modificato solo lo spazio degli embedding testuali, aggiungendo un nuovo "concetto" che il modello impara a riconoscere e riprodurre.
Un embedding di Textual Inversion è un vettore nello spazio latente del CLIP text encoder. Durante il training, il modello ottimizza questo vettore in modo che, quando viene usato come input, guidi la diffusione verso immagini coerenti con il volto appreso. Il risultato è un file `.pt` di pochi kilobyte che "contiene" il volto di Nicole.
Una volta ottenuto l'embedding, ogni scena del film è stata generata usando il trigger word nel prompt: `portrait of nicole_bellezza, dramatic lighting, dark fantasy, mountain background`. Il modello produce immagini coerenti con il volto appreso, adattandolo al contesto narrativo richiesto — dalla Nicole naturale alla masca con le corna, fino ai frame sovrapposti all'interfaccia HUD.
Le immagini statiche generate da SDNext sono state animate con KlingAI, un sistema commerciale di generazione video image-to-video sviluppato da Kuaishou. KlingAI è l'unico componente non open source dell'intera pipeline: interpola i frame, aggiunge movimento agli occhi, alle labbra e ai capelli, e produce clip di 5–10 secondi che mantengono la coerenza del volto appreso. È il passaggio che trasforma Nicole da personaggio fotografico a personaggio cinematografico.
La voce di Nicole è stata generata con LocalAI, un server di inferenza locale open source compatibile con l'API OpenAI, usando un modello TTS (Text-to-Speech) eseguito interamente in locale senza inviare dati a servizi esterni. Il testo dei dialoghi — scritto dall'autore — viene convertito in audio con una voce femminile sintetizzata, poi allineato alle clip video in fase di montaggio.
La sincronizzazione labiale è stata ottenuta in due modi complementari: per le scene con dialogo diretto, KlingAI genera il movimento delle labbra direttamente dall'audio TTS durante la fase di animazione. Per le scene in cui il parlato è in sottofondo o fuori campo, il montaggio manuale garantisce la coerenza audiovisiva senza richiedere un passaggio di lip sync dedicato. Non è stato usato alcun modello di lip sync separato: la pipeline rimane volutamente minimale.
La sovrapposizione delle scene di Nicole sulle riprese reali girate in montagna (Lago Veillet, Valle d'Aosta) è stata realizzata in DaVinci Resolve usando gli strumenti AI integrati nel modulo Fusion. Il processo si articola in tre fasi: (1) Magic Mask — il tracker neurale di DaVinci segmenta automaticamente il soggetto (Nicole) fotogramma per fotogramma, separandolo dallo sfondo generato da SDNext; (2) Alpha output — la maschera viene usata come canale alpha per isolare il personaggio in modo pulito, senza rotoscoping manuale; (3) Compositing in Fusion — il layer di Nicole viene sovrapposto al footage reale con correzione colore differenziale per uniformare la temperatura di luce tra le due sorgenti (luce artificiale della generazione AI vs. luce naturale delle riprese in quota). Il risultato è l'effetto di presenza fisica di un personaggio artificiale in un paesaggio reale.
Dataset di training — selezione
Alcune delle fotografie della persona reale usate per addestrare l'embedding. La varietà di pose, illuminazioni e contesti è deliberata: più il dataset è eterogeneo, più il modello apprende caratteristiche stabili e generalizzabili.
Stack tecnico — licenze
La quasi totalità degli strumenti usati per costruire Nicole è open source: Stable Diffusion e SDNext sono rilasciati sotto licenza AGPL-3.0 / Apache 2.0, LocalAI sotto MIT, i modelli TTS usati sono distribuiti con licenze permissive. L’unica eccezione è KlingAI (Kuaishou), servizio commerciale usato per l’animazione image-to-video e per il lip sync nelle scene con dialogo diretto. La scelta di usare KlingAI è stata dettata dall’assenza, al momento della produzione, di alternative open source con qualità comparabile per l’animazione di volti realistici.
Le fotografie mostrate in questa pagina sono state utilizzate con il consenso di Nicole Bellezza esclusivamente per l'addestramento del modello di generazione di immagini usato nel film. Le immagini generate dal modello sono un'elaborazione artistica e non rappresentano la persona reale al di fuori del contesto del cortometraggio.