> For the complete documentation index, see [llms.txt](https://docs.mindee.com/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.mindee.com/v2/fr/modeles-extraction/data-schema.md).

# Aperçu du Schéma de données

Un **Schéma de données Extraction** définit quelles données doivent être extraites, et de quelle manière, à partir des documents envoyés au modèle.

Vous pouvez considérer le Schéma de données comme une carte des documents que vous envoyez au modèle pour l’extraction.

Cette carte indique quelles données extraire, comment les formater, les pièges à éviter, etc.\
\
Pour ce faire, le Schéma de données est composé de champs (ou points de données), chaque champ ayant sa propre configuration.

De cette manière, le Schéma de données constitue la base de votre modèle. Toutes les autres fonctionnalités utiliseront le Schéma de données et en dépendront.

{% hint style="info" icon="lightbulb" %}
Utilisez le [Live test](/v2/fr/models/live-test.md) lorsque vous travaillez sur votre Schéma de données afin de valider rapidement les modifications.
{% endhint %}

## Aperçu des champs

Un Schéma de données est principalement composé de champs.

Un champ décrit un seul point de données à extraire dans le document.

Chaque champ possède les propriétés suivantes :

* Titre - lisible par l’humain
* Nom - lisible par machine, utilisé comme clé du champ dans la réponse de l’API
* Type - le type de données à extraire, plus de détails dans [#field-types](#field-types "mention")
* Description (facultatif) - fournit un contexte supplémentaire sur la manière dont le champ est utilisé
* Consignes (facultatif) - fournit des instructions pour mieux extraire le champ

## Types de champs

Le type d’un champ détermine la manière dont il sera formaté lorsqu’il sera renvoyé par l’API.

Le type donne également une indication sur ce qu’il faut rechercher dans le fichier d’entrée.

### Types de base

<table><thead><tr><th width="191.2000732421875">Type de champ</th><th>Description</th></tr></thead><tbody><tr><td>Texte</td><td>Une suite de caractères représentant des données textuelles.</td></tr><tr><td>Nombre</td><td>Données numériques pouvant être un entier ou une valeur à virgule flottante.</td></tr><tr><td>Date</td><td>Une année, un mois et un jour précis, formatés comme une <code>YYYY-MM-DD</code> date ou <code>YYYY-MM-DD HH:mm:ss</code> pour une date-heure.</td></tr><tr><td>Classification</td><td>Une liste définie de catégories ou de types à faire correspondre.</td></tr><tr><td>Booléen</td><td><p>Représente deux valeurs possibles : <code>true</code> ou <code>false</code></p><p>Astuce : les noms des champs booléens devraient commencer par "is" ou "has".</p></td></tr><tr><td>Objet imbriqué</td><td>Un type de données complexe contenant plusieurs sous-champs ou propriétés, permettant un seul niveau d’imbrication.</td></tr><tr><td>Détection d’objet</td><td>Détectez l’emplacement d’un élément du document, tel qu’un logo, une signature, une photo, etc.</td></tr><tr><td>Code-barres</td><td><p>Détectez l’emplacement d’un code-barres 1D (c.-à-d. UPC, EAN) ou d’un code-barres 2D (c.-à-d. QR Code, Data Matrix, 2D-DOC, PDF417).</p><p>En outre, essayez de décoder le contenu du code-barres sous forme de chaîne de caractères.</p></td></tr></tbody></table>

### **Types de tableaux**

Tout type de champ peut être transformé en tableau, une liste de valeurs.

Il vous suffit d’activer "Plusieurs éléments peuvent être extraits" lors de la création ou de la modification du champ.

Le type de retour sera un tableau du type de base, par exemple une liste de valeurs textuelles ou une liste de nombres.

Il est possible d’avoir une liste d’objets imbriqués, mais pas une liste de listes.

{% hint style="info" icon="lightbulb" %}
Dans certains cas, il peut y avoir des éléments en double, par exemple lorsque la même valeur apparaît sur plusieurs pages.

Activez "Filtrer les doublons de la liste des éléments" pour corriger cela.
{% endhint %}

## **Exemples de champs**

Voici quelques exemples des meilleurs types de champ à utiliser pour un Schéma de données de base pour l’extraction de factures.

<table><thead><tr><th>Nom du champ</th><th width="203.5">Type de champ</th><th>Exemple de valeur renvoyée</th></tr></thead><tbody><tr><td><strong>Nom du fournisseur</strong></td><td>String</td><td><code>Acme Supplies Ltd.</code></td></tr><tr><td><strong>Logo du fournisseur</strong></td><td>Détection d’objet</td><td>Polygone autour du logo</td></tr><tr><td><strong>Immatriculation de l’entreprise du fournisseur</strong></td><td>Objet imbriqué</td><td><em>Voir les sous-champs ci-dessous</em></td></tr><tr><td><em>Immatriculation de l’entreprise du fournisseur.</em><strong>Nombre</strong></td><td>String</td><td><code>CRN-20250123</code></td></tr><tr><td><em>Immatriculation de l’entreprise du fournisseur.</em><strong>Type</strong></td><td>Classification</td><td><code>NUMÉRO DE TVA</code></td></tr><tr><td><strong>Date de facture</strong></td><td>Date</td><td><code>2025-06-10</code></td></tr><tr><td><strong>En retard</strong></td><td>Booléen</td><td><code>false</code></td></tr><tr><td><strong>Montant total</strong></td><td>Nombre</td><td><code>1540.75</code></td></tr><tr><td><strong>Taxes</strong></td><td>Tableau d’objets imbriqués</td><td><em>Voir les sous-champs ci-dessous</em></td></tr><tr><td><em>Taxes[0].</em><strong>Taux</strong></td><td>number</td><td><code>0.185</code></td></tr><tr><td><em>Taxes[0].</em><strong>Base</strong></td><td>number</td><td><code>1300.00</code></td></tr><tr><td><em>Taxes[0].</em><strong>Montant</strong></td><td>number</td><td><code>240.75</code></td></tr></tbody></table>

## Consignes globales

En plus des consignes individuelles de champ, une consigne globale peut être utilisée dans votre Schéma de données.

Le texte de la consigne globale s’appliquera à tous les champs ou à certains, selon vos instructions.

Utilisez des consignes globales lorsque vous souhaitez :

* Généraliser des instructions à plusieurs champs spécifiques. Par exemple :
  * *"Les champs numériques liés aux montants devraient toujours comporter 3 décimales."*
  * *"Les champs pays devraient renvoyer le code ISO alpha-3 du pays."*
* Fournir des instructions générales ou du contexte pour tous les champs. Par exemple :
  * *"Assurez la conformité ASCII en supprimant tous les diacritiques des valeurs renvoyées."*

{% hint style="info" %}
Vous pouvez inclure dans le texte n’importe quel nombre de consignes sans rapport entre elles, par exemple tous les exemples ci-dessus.

Pour de meilleurs résultats, séparez chaque consigne différente par une nouvelle ligne.
{% endhint %}

## Langue

Vous pouvez spécifier le *Titre*, *Nom*, *Description*, et *Consignes* dans la plupart des langues.

Cela s’applique également au Schéma de données [#global-guidelines](#global-guidelines "mention").

Cela inclut, mais n’est **pas limité** à :

* Langues européennes : anglais, français, espagnol, allemand, italien, portugais, russe, grec, etc.
* Langues asiatiques : hindi, bengali, turc, ourdou, farsi, arménien, etc.
* Langues d’Asie de l’Est : japonais, mandarin, coréen, vietnamien, etc.
* Langues sémitiques : arabe, hébreu, amharique, etc.
* Langues africaines : swahili, yoruba, zoulou, etc.

**Remarque :** bien que les modèles puissent comprendre ces langues, nous ne sommes pas en mesure de fournir une assistance approfondie pour toutes les langues.

## Limitations techniques

## Étapes suivantes

Maintenant que vous connaissez les différents composants du Schéma de données, vous voudrez consulter [Bonnes pratiques du Schéma de données](/v2/fr/modeles-extraction/data-schema-best-practices.md) pour obtenir des conseils sur la création d’un Schéma de données précis et performant.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.mindee.com/v2/fr/modeles-extraction/data-schema.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
