Aller au contenu

Configuration des configurations de capture

Dernière mise à jour : 03.09.2025 • Temps de lecture : ~7 minutes

Les configurations de capture sont un composant central du traitement intelligent. Elles définissent comment les documents sont analysés et quelles données en sont extraites. Les données extraites forment la base de processus cohérents, conformes et sécurisés.

Il existe deux méthodes disponibles pour analyser les documents et extraire des données :

  • Méthode de capture de compréhension du contenu
  • Méthode de capture d'intelligence documentaire

Remarque

Assurez-vous que les services d'IA requis sont configurés.

  • La compréhension du contenu nécessite le service de compréhension du contenu.
  • L'intelligence documentaire nécessite le service d'intelligence documentaire.

Important

Les configurations de capture sont destinées uniquement aux documents standards. Aucune configuration de capture individuelle n'est disponible pour les documents XML ou par e-mail, car ceux-ci sont traités automatiquement via des scénarios prédéfinis.


Création d'une configuration de capture

Suivez ces étapes pour créer une nouvelle configuration de capture :

  1. Commencez dans la zone de configuration du traitement intelligent.
  2. Dans le menu Configurations, sélectionnez l'entrée Configuration de capture.
  3. Cliquez sur Créer pour configurer une nouvelle configuration.
  4. Suivez l'assistant pour sélectionner la méthode, définir les champs et établir les règles de validation.

Aperçu des méthodes

Méthode de capture de compréhension du contenu (CU)

Avec la méthode CU, vous définissez quelles données doivent être extraites d'un document en fonction de descriptions de champs claires.

  • Particulièrement adaptée aux structures de documents variées ou complexes.
  • Les champs sont reconnus sémantiquement, indépendamment de la mise en page.
  • Idéal lorsque l'accent est mis sur le contenu plutôt que sur la mise en page.

Méthode de capture d'intelligence documentaire (DI)

La méthode DI analyse les documents en fonction de la mise en page.

  • Utilise des modèles pré-entraînés pour des types de documents typiques – permet un démarrage rapide.
  • En option, des modèles personnalisés peuvent être entraînés pour traiter de manière fiable des mises en page individuelles ou complexes.
  • Convient lorsque la mise en page est stable ou qu'une haute précision est requise.

Quelle méthode choisir ?

Scénario Recommandation Justification
De nombreuses mises en page différentes, accent sur le contenu Compréhension du contenu Extraction sémantique, robuste face aux variations de mise en page
Documents standardisés avec une structure stable Intelligence documentaire (préconstruite) Rapide à configurer, faible effort de configuration
Mises en page très spécifiques ou complexes, haute précision requise Intelligence documentaire (modèle personnalisé) Stabilité maximale grâce à l'entraînement, mais effort plus élevé
Prototypage rapide ou cycles d'itération courts Compréhension du contenu Les champs peuvent être facilement décrits et testés directement

Recommandation

Commencez par la compréhension du contenu si vous vous attendez à de nombreuses variations de mise en page ou si le contenu est la priorité. Utilisez l'intelligence documentaire (préconstruite) pour un démarrage rapide. N'utilisez des modèles personnalisés que si la CU ou la DI préconstruite ne fournissent pas des résultats suffisamment précis.


Comment créer un analyseur de compréhension du contenu ?

Si vous avez choisi la méthode Compréhension du contenu (CU), vous pouvez directement créer et gérer un nouvel analyseur dans Business Central. Une page de configuration dédiée est disponible à cet effet.

Vous pouvez ouvrir cette page soit :

  • dans la configuration de capture respective via l'action Configuration de compréhension du contenu IA, ou
  • directement à partir de la page Configuration du traitement intelligent.

Dans cet aperçu, vous pouvez voir tous les analyseurs qui existent déjà dans le service. Chaque analyseur y est stocké et synchronisé automatiquement lors des modifications.

Pour créer un nouvel analyseur, suivez ces étapes :

  1. Cliquez sur Nouveau pour créer un analyseur.
  2. Attribuez un nom unique à l'analyseur.
  3. Sélectionnez les modèles d'IA à utiliser pour l'analyse (voir Sélection de modèle ci-dessous).
  4. Définissez quels champs doivent être extraits aux niveaux En-tête et Ligne.

Sélection de modèle

Chaque analyseur nécessite la sélection de modèles d'IA pour le traitement des documents. Deux types de modèles doivent être configurés :

Paramètre Description
Modèle d'IA Le modèle de complétion de chat utilisé pour l'analyse des documents et l'extraction des données. Ceci est obligatoire et doit être sélectionné lors de la création de l'analyseur.
Modèle d'embedding Le modèle utilisé pour la compréhension sémantique et l'appariement de contenu. Ce champ est automatiquement rempli avec un modèle d'embedding par défaut. Ne changez cela que si vous avez des exigences spécifiques.

Les modèles disponibles sont automatiquement synchronisés depuis votre service Azure OpenAI configuré. Choisissez le modèle approprié en fonction de la complexité de votre document et de vos exigences en matière de précision.

Directives de sélection de modèle

Pour les analyseurs de compréhension du contenu :

  • Utilisez des mini modèles (par exemple, gpt-5.2-mini) pour des mises en page de documents simples et standardisées
  • Utilisez des modèles de taille complète (par exemple, gpt-5.2) pour des structures de documents complexes ou variées

Le modèle d'embedding est généralement défini automatiquement et nécessite rarement d'être changé.

Définition des champs

Pour chaque champ, les informations suivantes sont disponibles :

Paramètre Description
Nom du champ Nom technique du champ à extraire. Souvent, le nom seul est suffisant, mais une description détaillée est recommandée pour de meilleurs résultats.
Description du champ Description en texte libre qui explique le contexte du champ. Formulez-le comme si vous expliquiez à une personne où et comment trouver le champ.
Type de valeur Type de données attendu du champ. Options disponibles : String, Date, Number, Integer.

Actions de l'analyseur

Action But
Gestion du schéma → Importer le modèle de processus Importe les champs directement à partir d'un modèle de processus existant. Avantage : Les noms des champs sont identiques à ceux du modèle, garantissant que l'appariement est 100 % précis par la suite. Cela garantit également que tous les champs pertinents sont capturés dans l'analyseur.
Outil d'analyse de test Utilisé pour les tests lors de la configuration.
1. Téléchargez un document de test.
2. Exécutez l'action Exécuter l'outil d'analyse de test.
3. Un analyseur temporaire est créé et une simulation de capture est lancée.
4. Les résultats sont affichés dans un aperçu.
Construire l'analyseur Crée le modèle final. Seuls les analyseurs construits peuvent être utilisés en production. L'analyseur doit être reconstruit chaque fois que des champs ou des modèles sont modifiés.

Édition de l'analyseur

Vous avez également la possibilité d'étendre ou d'ajuster des analyseurs existants. Il suffit d'entrer dans un analyseur et de l'éditer comme d'habitude. Les modifications du schéma de champ ou de la sélection de modèle d'IA nécessitent de reconstruire l'analyseur pour prendre effet.

Remarques sur le processus de construction :

  • La construction (Build) prend généralement seulement quelques secondes.
  • Vous pouvez voir l'état actuel via l'action Actualiser la liste.
  • Les analyseurs déjà construits sont immédiatement disponibles pour l'extraction de champs.

Meilleure pratique

Utilisez toujours Importer le modèle de processus en premier avant de définir manuellement les champs. Cela garantit que les noms des champs correspondent exactement au modèle et que l'appariement fonctionne sans faille par la suite.


Configurer un modèle OCR personnalisé

Notre méthode de capture est alimentée par l'IA et extrêmement précise. Elle peut comprendre le contexte et extraire des valeurs précisément des documents. Cependant, l'IA n'est pas parfaite — certains cas ne peuvent pas être résolus de manière fiable par des invites seules, en particulier les mises en page très non structurées ou les documents de clients spécifiques.

Pour traiter ces cas, nous offrons un système hybride. L'extraction par IA fonctionne toujours comme première couche. Après cela, une seconde couche optionnelle peut appliquer des positions OCR manuelles définies pour des clients individuels afin d'extraire des champs spécifiques avec une grande précision. Cela permet aux clients d'affiner l'extraction pour des mises en page spécifiques et de définir des positions exactes pour une précision accrue.

Pour utiliser des modèles personnalisés, votre modèle de processus doit contenir un champ se terminant par *Name. Cela sert de clé de mappage qui relie les documents entrants à leur modèle personnalisé correspondant.

Création d'un modèle personnalisé

  1. Téléchargez, classifiez et traitez le document comme d'habitude.
  2. Dans la fenêtre de brouillon, vérifiez si des données ont été extraites de manière incorrecte ou incomplète.
  3. Utilisez l'action "Voir les données extraites" pour ouvrir la vue d'extraction détaillée.
  4. Cliquez sur Modifier dans le coin supérieur droit pour entrer en mode d'édition.

Re-mappage ou ajout de champs

En mode d'édition, les champs peuvent être re-mappés ou de nouveaux champs du modèle peuvent être mappés :

  • Sélectionnez un champ et cliquez sur Modifier
  • Marquez la position correspondante dans le document à l'aide de la souris
  • Une fois relâché, la valeur est extraite et affichée
  • Répétez pour autant de champs que nécessaire

Pour les tableaux d'articles, chaque ligne est automatiquement traitée. Lors de la marquage d'une zone, le système itère à travers toutes les lignes et extrait les valeurs en conséquence.

Enregistrer et appliquer

Une fois que vous êtes satisfait, enregistrez vos modifications. Un modèle sera créé pour la clé de mappage respective (par exemple, Client). Lorsque de nouveaux documents avec la même classification et le même Client arrivent, le modèle personnalisé sera automatiquement appliqué.

Remarque : Si vous changez le Client dans le brouillon, le brouillon sera régénéré car l'extraction peut changer en raison du modèle personnalisé associé.


Questions Fréquemment Posées

Ai-je nécessairement besoin des deux méthodes ? Non. De nombreux scénarios peuvent être entièrement mis en œuvre avec une seule méthode. Des scénarios mixtes, par exemple, DI pour des factures standard et CU pour des formats spéciaux, sont possibles.

Que se passe-t-il si aucun service n'est configuré ou si les identifiants sont invalides ? Lors du démarrage d'une action, un message d'erreur sera affiché, décrivant quel service est manquant ou quels paramètres doivent être vérifiés.


Résumé

  • Les configurations de capture contrôlent comment les données sont extraites des documents.
  • La compréhension du contenu est flexible, sémantique et idéale pour des mises en page variées.
  • L'intelligence documentaire est orientée vers la mise en page, rapide avec des modèles préconstruits, et particulièrement robuste avec des modèles personnalisés.
  • Choisissez la méthode en fonction de la variété de mise en page, de l'effort de configuration et du cas d'utilisation spécifique.

Prochaines étapes