JSON Prompt : Guide IA Vidéo 2026 (Veo, Sora, Runway)

JSON Prompt : Guide IA Vidéo 2026 (Veo, Sora, Runway)

Growth Marketing
Wladimir Delcros
10 min de lecture
Publié le 7 août 2025 • Mis à jour le 4 mai 2026

Un JSON prompt remplace la phrase floue par un brief structuré que le modèle vidéo lit comme un plateau de tournage. Google a publié dès le lancement de Veo 3 un guide officiel recommandant la décomposition explicite en champs subject, action, scene, camera, lighting (Google, 2024). Cette page explique pourquoi cette structure améliore la cohérence des plans, comment l'écrire pour Sora, Veo 3, Runway Gen-3 et Kling, et comment l'industrialiser dans un workflow pub ou storyboard.

TL;DR : le JSON prompt en 30 secondes

Un JSON prompt est un objet clé-valeur qui isole chaque dimension d'un plan vidéo (sujet, action, caméra, lumière, ambiance, durée). Les modèles vidéo récents, entraînés sur des descriptions cinématographiques structurées, exploitent mieux ces champs qu'une phrase libre.

Points clés
  • Veo 3 et Sora reconnaissent explicitement les champs camera, lens, shot_type dans leurs guides officiels.
  • Le JSON divise par 2 à 4 le nombre d'itérations nécessaires pour stabiliser un plan, selon les retours publics d'utilisateurs Runway.
  • Une structure type couvre 6 blocs : sujet, action, environnement, caméra, lumière, mood.
  • Le format se branche directement sur les API OpenAI et Google AI Studio pour automatiser des batchs de variantes.

Qu'est-ce qu'un JSON prompt et en quoi diffère-t-il du prompt texte ?

Un JSON prompt est une description vidéo encodée en JavaScript Object Notation, format standardisé par l'ECMA-404. Là où un prompt texte mélange tout dans une phrase, le JSON isole chaque variable cinématographique. OpenAI documente cette logique dans son guide prompt engineering (OpenAI, 2024) : un schéma structuré réduit l'ambiguïté d'interprétation.

Concrètement, écrire « un chat sur un canapé filmé en gros plan le matin » laisse le modèle deviner cinq paramètres. Le JSON les fixe.

{
  "subject": "chat tigré roux",
  "action": "dort en boule",
  "location": "canapé en velours vert",
  "camera": {"shot": "close-up", "angle": "eye-level", "movement": "slow push-in"},
  "lighting": "golden hour, fenêtre côté jardin",
  "mood": "calme, intime"
}

Pourquoi les modèles vidéo lisent mieux le JSON

Les modèles génératifs vidéo type Veo 3 ou Sora sont entraînés sur des paires (vidéo, légende). Beaucoup de ces légendes proviennent de bases cinéma annotées par champs (shot type, lens, lighting). Un prompt structuré rapproche votre requête de la distribution d'entraînement, ce qui améliore la fidélité du rendu.

Pourquoi adopter un JSON prompt pour Veo 3, Sora et Runway ?

Google DeepMind décrit Veo 3 comme capable de comprendre des instructions cinématographiques détaillées en langage naturel ou structuré (DeepMind, 2025). Sora 2, sorti fin 2025, génère jusqu'à 60 secondes de vidéo cohérente avec audio synchronisé selon la documentation OpenAI. Pour exploiter ces capacités, le JSON apporte trois gains nets.

Gain de précision

Chaque champ devient un signal isolé. Vous pouvez écrire "lens": "35mm" sans que le modèle confonde avec une distance. Le guide officiel Veo de Google liste explicitement les paramètres caméra reconnus : aerial shot, dolly shot, tracking shot, low angle.

Gain d'itération

Modifier une seule clé suffit pour tester une variante. Passer "lighting": "golden hour" à "lighting": "neon noir" garde tout le reste constant. Pour une campagne pub, vous générez 20 variantes lumière sans réécrire 20 phrases.

Gain de collaboration

Un directeur artistique, un développeur et un growth manager lisent le même fichier. Pas de paraphrase, pas de perte. Le JSON devient la source de vérité du brief, versionnable dans Git comme n'importe quel artefact technique.

Quelle est la structure type d'un JSON prompt vidéo ?

Six blocs couvrent 95 % des besoins. Cette taxonomie reprend les champs documentés par Runway pour Gen-3 Alpha et le guide Veo Google. La structure ci-dessous fonctionne pour Veo 3, Sora 2, Runway Gen-3 et Kling 2.0.

{
  "subject": "",
  "action": "",
  "scene": {
    "location": "",
    "time_of_day": "",
    "weather": ""
  },
  "camera": {
    "shot_type": "medium shot",
    "angle": "eye-level",
    "movement": "static",
    "lens": "50mm"
  },
  "lighting": "",
  "style": {
    "genre": "",
    "mood": "",
    "color_palette": ""
  },
  "audio": "",
  "duration_seconds": 8
}

Les champs critiques selon le modèle cible

  • Veo 3 : ajouter audio (dialogue, ambient sound) qui est nativement supporté depuis le lancement public en mai 2024.
  • Sora 2 : préciser physics (réalisme physique amélioré) et continuity pour les plans multi-shots.
  • Runway Gen-3 Alpha : insister sur camera.movement, le modèle excelle sur les mouvements complexes.
  • Kling 2.0 : champ negative_prompt recommandé par Kling AI pour éliminer artefacts.

Comment écrire un JSON prompt pour Veo 3 ?

Veo 3 de Google DeepMind génère 8 secondes en 1080p avec audio synchronisé selon l'annonce officielle. Le JSON suivant produit un plan publicitaire café exploitable directement.

{
  "subject": "jeune femme, cheveux bruns, pull beige en laine",
  "action": "verse un espresso dans une tasse blanche, lève les yeux vers la caméra et sourit",
  "scene": {
    "location": "cuisine scandinave épurée",
    "time_of_day": "matin tôt",
    "weather": "lumière naturelle douce"
  },
  "camera": {
    "shot_type": "medium close-up",
    "angle": "slight low angle",
    "movement": "slow dolly in",
    "lens": "35mm anamorphic"
  },
  "lighting": "backlight fenêtre, fill léger droite",
  "audio": "bruit de l'espresso qui coule, ambiance silencieuse",
  "style": {
    "genre": "publicité lifestyle",
    "mood": "cosy, premium",
    "color_palette": "tons crème, bois clair, vert sauge"
  },
  "duration_seconds": 8
}

Astuce reconnue par les utilisateurs Veo

Le champ audio change tout. Un prompt sans description sonore génère souvent une bande-son générique. Préciser « bruit espresso, silence ambiant » force Veo 3 à composer un mix sound design cohérent avec l'image.

Comment adapter le JSON prompt à Sora 2 et Runway Gen-3 ?

Sora 2 et Runway Gen-3 répondent différemment au même JSON. Sora 2 excelle sur la physique et la continuité multi-shots, Gen-3 sur les mouvements caméra cinématographiques selon Runway Research. Adapter signifie pondérer les champs selon le modèle.

Variante Sora 2

{
  "subject": "surfeur, combinaison noire",
  "action": "prend une vague, drop, bottom turn, sortie en spray",
  "physics": "eau réaliste, gravité, masse de la planche",
  "continuity": "plan unique 12 secondes, pas de coupe",
  "camera": {"shot_type": "wide tracking", "movement": "follow shot drone"},
  "lighting": "contre-jour coucher de soleil Pacifique",
  "duration_seconds": 12
}

Variante Runway Gen-3 Alpha

{
  "subject": "berger allemand",
  "action": "court dans un champ de blé",
  "camera": {
    "shot_type": "low angle wide",
    "movement": "handheld tracking, slight shake",
    "lens": "24mm",
    "speed": "slow motion 120fps"
  },
  "lighting": "golden hour, lens flare anamorphique",
  "style": {"genre": "cinematic, Terrence Malick", "color_palette": "chauds dorés"}
}

La différence ? Sora 2 valorise physics et continuity. Gen-3 récompense les détails caméra et l'esthétique référencée à un cinéaste. Tester les deux sur un même brief reste la meilleure méthode pour choisir.

Comment intégrer le JSON prompt dans un workflow pro ?

Le passage du prompt manuel au pipeline industrialisé multiplie les volumes générés sans diluer la qualité. Anthropic recommande dans sa documentation Claude l'usage de structures balisées pour les prompts complexes, principe identique pour le JSON. Trois cas d'usage dominent en agence et chez l'annonceur.

Cas 1 : storyboard généré depuis un script

Un script de pub se découpe en 6 à 12 plans. Chaque plan devient un objet JSON. Un script Python parcourt la liste et envoie chaque objet à l'API Veo 3 ou Runway. Résultat : un storyboard animé en 20 minutes au lieu de 2 jours.

Cas 2 : variantes A/B pour pub vidéo

Un brief paid social demande 8 versions d'une même scène (palette, mood, cadrage). Le JSON template reste identique, seules trois clés varient. Sur LinkedIn Ads ou Meta Ads, cela alimente un test de créatives à coût marginal proche de zéro. Pour structurer ce type de pipeline créa-perf, voir notre approche growth marketing.

Cas 3 : bibliothèque de prompts versionnée

L'équipe créa stocke ses meilleurs JSON dans un repo Git. Chaque réussite devient un template. Un nouveau projet démarre en duplicant un JSON existant et en modifiant le sujet. Cette capitalisation transforme un savoir-faire individuel en actif d'agence.

Quels écueils éviter avec un JSON prompt ?

La structure ne fait pas la qualité. Un JSON mal écrit produit pire qu'un prompt texte simple. Les retours publics sur les forums Runway et r/StableDiffusion convergent sur quatre erreurs récurrentes.

Erreur 1 : sur-spécifier

Empiler 30 champs étouffe le modèle. Veo 3 et Sora 2 traitent mieux 8 à 12 champs précis qu'un objet exhaustif. Garder le superflu hors du JSON améliore le rendu.

Erreur 2 : valeurs vagues

Écrire "lighting": "belle lumière" ne sert à rien. Préférer "lighting": "backlight fenêtre nord, 5600K, fill bounce blanc". La spécificité technique guide le modèle.

Erreur 3 : ignorer la durée

Veo 3 plafonne à 8 secondes par génération en mai 2024, Sora 2 à 60 secondes, Runway Gen-3 Alpha à 10 secondes. Un JSON qui demande "duration_seconds": 30 à Veo 3 sera tronqué ou échouera.

Erreur 4 : oublier le négatif

Pour Kling et Runway, ajouter un champ negative_prompt avec « visages déformés, mains incohérentes, texte aléatoire » réduit drastiquement les artefacts. Le champ est ignoré par Veo et Sora mais ne casse rien.

Quels gains de qualité observe-t-on entre prompt texte et JSON ?

Aucun benchmark public académique ne compare directement les deux formats à ce jour. Les retours qualitatifs convergent toutefois. Sur des plans complexes (multi-sujets, mouvement caméra défini, ambiance précise), le JSON divise le nombre d'itérations nécessaires pour atteindre un rendu validable. Un papier arXiv sur la structuration des prompts montre que les LLM répondent mieux à des instructions formatées qu'à du texte libre, principe transposable aux modèles vidéo.

En pratique, sur une production pub avec 12 plans à valider, passer au JSON ramène typiquement le temps de prompt-engineering de 2-3 jours à une demi-journée. Le coût de génération API reste identique. Le gain est donc 100 % humain.

FAQ : JSON prompt et génération vidéo IA

Le JSON prompt fonctionne-t-il aussi pour Midjourney ou Stable Diffusion ?

Partiellement. Midjourney v6 et Stable Diffusion XL acceptent du JSON mais l'aplatissent en texte avant traitement. Le bénéfice est moins net qu'avec Veo, Sora ou Runway, modèles vidéo entraînés sur des descriptions structurées par champs.

Faut-il valider le JSON avant de l'envoyer à l'API ?

Oui. Une virgule finale ou un guillemet manquant fait planter le parser. Un linter comme JSONLint ou un simple json.loads() Python valide en deux secondes. Sur un pipeline batch de 100 prompts, c'est non négociable.

Peut-on demander à ChatGPT ou Claude de générer le JSON prompt ?

Oui, et c'est même recommandé. Décrire le plan en français, demander à Claude ou GPT-5 de produire un JSON conforme à un schéma fourni. La méthode ramène le temps d'écriture d'un prompt complexe de 10 minutes à 1 minute, avec une cohérence supérieure.

Le JSON prompt remplace-t-il le storyboard traditionnel ?

Non, il le complète. Le storyboard reste le langage de validation client. Le JSON devient la couche d'exécution technique entre le storyboard validé et le modèle vidéo. Les deux coexistent dans un workflow d'agence mature.

Quel modèle vidéo choisir en 2026 selon mon use case ?

Pour la pub courte avec audio : Veo 3. Pour des plans longs cohérents avec physique réaliste : Sora 2. Pour le contrôle caméra cinématographique : Runway Gen-3 Alpha. Pour le rapport qualité-prix sur volumes élevés : Kling 2.0. Le JSON prompt fonctionne sur les quatre, ce qui facilite les comparaisons croisées.

Passer à l'industrialisation

Le JSON prompt n'est pas une mode : c'est l'interface contractuelle entre une intention créative et un modèle vidéo. Ceux qui structurent leurs prompts gagnent du temps, de la cohérence et de la reproductibilité. Ceux qui restent au prompt texte compensent par des dizaines d'itérations.

Si vous construisez un pipeline vidéo IA pour vos campagnes ou vos contenus produits, l'accompagnement IA d'Uclic couvre la conception de templates JSON, l'intégration API et la mise en production. Pour aller plus loin sur le pilotage créa-perf, notre offre growth marketing traite l'amont (brief, audience) et l'aval (test, scaling). D'autres analyses IA et automation sont disponibles sur notre blog.

Wladimir Delcros

À propos de l'auteur

Wladimir Delcros

Founder & Growth Engineer @ Uclic

Founder de Uclic — Agence Growth & IA. Expert en Growth Marketing et Hacking avec 10+ ans d'expérience dans le SaaS. Je crée des moteurs d'acquisition automatisés pour les entreprises B2B, combinant ingénierie et marketing pour générer de la croissance scalable.

Partager cet article
Voir tous les articles
Audit Gratuit