Aller au contenu
uclic
Workflow n8nManual

Automatisation de recherche web avec n8n : extraction de données

Ce workflow n8n a pour objectif d'automatiser la recherche et l'extraction de données à partir de pages web. Dans un contexte où les entreprises ont besoin d'accéder rapidement à des informations pertinentes pour leurs activités, ce workflow permet de récupérer des schémas d'API et d'autres contenus de manière efficace. Il est particulièrement utile pour les équipes de développement, les chercheurs ou toute organisation souhaitant automatiser la collecte de données en ligne. Étape 1 : Le flux commence par un déclencheur manuel, permettant à l'utilisateur de tester le workflow. Étape 2 : Une requête HTTP est effectuée pour rechercher un schéma d'API. Étape 3 : Les contenus des pages web sont ensuite extraits via une autre requête HTTP. Étape 4 : Les résultats sont divisés en listes pour un traitement ultérieur. Étape 5 : Chaque document est ensuite analysé et les embeddings sont créés à l'aide du modèle Google Gemini. Les données sont ensuite stockées et filtrées pour ne conserver que les résultats pertinents. Ce workflow offre une solution rapide et efficace pour la collecte d'informations, réduisant ainsi le temps consacré à la recherche manuelle et augmentant la productivité des équipes.

88Nœuds05Intégrations06ÉtapesPrêt à l'emploi
Pour qui

À qui s'adresse ce workflow ?

Ce workflow s'adresse aux équipes techniques, chercheurs et développeurs qui souhaitent automatiser la collecte de données à partir de sources web. Il est idéal pour les entreprises de taille moyenne à grande qui ont besoin d'accéder rapidement à des informations précises pour leurs projets.

Le problème

Ce que ce workflow résout

Ce workflow résout le problème de la recherche manuelle d'informations sur le web, qui peut être chronophage et inefficace. En automatisant ce processus, les utilisateurs peuvent réduire le temps passé à chercher des données et minimiser les erreurs humaines. Après mise en place, les utilisateurs bénéficient d'une extraction rapide et fiable des informations nécessaires, leur permettant de se concentrer sur des tâches à plus forte valeur ajoutée.

Les étapes

Comment ça fonctionne

Étape 1 : Le workflow est déclenché manuellement.

  • 01Étape 1 : Une requête HTTP est envoyée pour rechercher un schéma d'API.
  • 02Étape 2 : Les contenus des pages web sont extraits via une autre requête HTTP.
  • 03Étape 3 : Les résultats sont divisés en listes pour un traitement ultérieur.
  • 04Étape 4 : Chaque document est analysé et les embeddings sont créés à l'aide du modèle Google Gemini.
  • 05Étape 5 : Les données sont stockées et filtrées pour ne conserver que les résultats pertinents.
Besoin d'aide

On adapte ce workflow à votre stack.

CRM, outils internes, briques métier — on connecte tout via n8n et on vous livre une automatisation prête à l'emploi.

Schéma visuel

Visualisation du workflow n8n

Schéma des nœuds et connexions de ce workflow n8n, généré à partir du JSON n8n.

JSON n8n

Importer dans n8n en un clic

Inscris-toi gratuitement pour télécharger le fichier .json, puis fais Import from File dans n8n pour déployer le workflow en quelques secondes.

automatisation-de-recherche-web-avec-n8n-extraction-de-donnees.json
Réservé membres
JSON complet réservé membres

Inscris-toi gratuitement pour télécharger le workflow et l'importer dans n8n.

Télécharger gratuitement

Inscription en 30 secondes · Sans CB

Guide

Personnaliser ce workflow

Pour personnaliser ce workflow, vous pouvez modifier l'URL de la requête HTTP pour cibler d'autres pages web. Vous pouvez également ajuster les paramètres d'extraction pour affiner les données récupérées. Si vous souhaitez intégrer d'autres outils, vous pouvez ajouter des nœuds supplémentaires pour traiter les données extraites. Assurez-vous de sécuriser le flux en configurant correctement les authentifications nécessaires pour les API utilisées.

Les nœuds

Détail des nœuds n8n

  • 01
    When clicking ‘Test workflow’

    Déclenche le workflow lorsque l'utilisateur clique sur 'Test workflow'.

  • 02
    Web Search For API Schema

    Effectue une requête HTTP pour rechercher un schéma d'API.

  • 03
    Scrape Webpage Contents

    Récupère le contenu d'une page web via une requête HTTP.

  • 04
    Results to List

    Divise les résultats en une liste selon les options spécifiées.

  • 05
    Recursive Character Text Splitter1

    Divise le texte en morceaux de caractères de manière récursive.

  • 06
    Content Chunking @ 50k Chars

    Définit des variables pour le contenu en morceaux de 50 000 caractères.

  • 07
    Split Out Chunks

    Divise les morceaux en fonction des options et du champ spécifié.

  • 08
    Default Data Loader

    Charge les données par défaut depuis un document.

  • 09
    Set Embedding Variables

    Définit des variables d'embedding pour le traitement ultérieur.

  • 10
    Execute Workflow Trigger

    Exécute un déclencheur de workflow pour démarrer un autre workflow.

  • 11
    Execution Data

    Sauvegarde des données d'exécution pour un suivi ultérieur.

  • 12
    EventRouter

    Évalue les conditions et dirige le flux en conséquence.

  • 13
    Google Gemini Chat Model

    Utilise le modèle de chat Google Gemini pour générer des réponses.

  • 14
    Successful Runs

    Filtre les résultats pour ne garder que ceux qui sont réussis.

  • 15
    For Each Document...

    Divise les documents en lots pour un traitement par la suite.

  • 16
    Embeddings Google Gemini

    Génère des embeddings à l'aide du modèle Google Gemini.

  • 17
    Has API Documentation?

    Classifie le texte pour déterminer s'il contient une documentation API.

  • 18
    Store Document Embeddings

    Stocke les embeddings de documents dans une base de données Qdrant.

  • 19
    Embeddings Google Gemini1

    Génère des embeddings à l'aide d'une autre instance du modèle Google Gemini.

  • 20
    Google Gemini Chat Model1

    Utilise à nouveau le modèle de chat Google Gemini pour générer des réponses.

  • 21
    Extract API Operations

    Extrait les opérations API à partir du texte fourni.

  • 22
    Search in Relevant Docs

    Recherche dans les documents pertinents en utilisant Qdrant.

  • 23
    Wait

    Met en pause le workflow pendant une durée spécifiée.

  • 24
    Remove Dupes

    Supprime les doublons dans les résultats en fonction des champs spécifiés.

  • 25
    Filter Results

    Filtre les résultats selon des conditions définies.

  • 26
    Research

    Exécute un autre workflow pour effectuer des recherches.

  • 27
    Has Results?

    Évalue si des résultats sont présents et dirige le flux en conséquence.

  • 28
    Response Empty

    Définit une réponse vide pour le traitement ultérieur.

  • 29
    Response OK

    Définit une réponse OK pour indiquer un succès.

  • 30
    Combine Docs

    Combine plusieurs documents en un seul ensemble.

  • 31
    Template to List

    Divise un modèle en une liste selon les options spécifiées.

  • 32
    Query Templates

    Définit des variables pour les modèles de requête.

  • 33
    Google Gemini Chat Model2

    Utilise le modèle de chat Google Gemini pour générer des réponses à nouveau.

  • 34
    For Each Template...

    Divise les modèles en lots pour un traitement par la suite.

  • 35
    Query & Docs

    Définit des variables pour les requêtes et les documents.

  • 36
    Identify Service Products

    Identifie les produits de service à partir du texte fourni.

  • 37
    Extract API Templates

    Définit des variables pour les modèles d'API.

  • 38
    Embeddings Google Gemini2

    Génère des embeddings à l'aide d'une autre instance du modèle Google Gemini.

  • 39
    Search in Relevant Docs1

    Recherche dans les documents pertinents en utilisant Qdrant à nouveau.

  • 40
    Combine Docs1

    Combine plusieurs documents en un seul ensemble à nouveau.

  • 41
    Query & Docs1

    Définit des variables pour les requêtes et les documents à nouveau.

  • 42
    For Each Template...1

    Divise les modèles en lots pour un traitement par la suite à nouveau.

  • 43
    Merge Lists

    Fusionne plusieurs listes en une seule à l'aide de code JavaScript.

  • 44
    Remove Duplicates

    Supprime les doublons dans les résultats en fonction des champs spécifiés à nouveau.

  • 45
    Append Row

    Ajoute une ligne dans une feuille Google Sheets avec les colonnes spécifiées.

  • 46
    Response OK1

    Définit une réponse OK pour indiquer un succès à nouveau.

  • 47
    Has Operations?

    Évalue si des opérations sont présentes et dirige le flux en conséquence.

  • 48
    Response Empty1

    Définit une réponse vide pour le traitement ultérieur à nouveau.

  • 49
    Research Pending

    Ajoute des données de recherche dans une feuille Google Sheets.

  • 50
    Research Result

    Ajoute les résultats de recherche dans une feuille Google Sheets.

Dernière étape

Vous n'avez pas besoin de plus de canaux.
Vous avez besoin d'un pilote.

Audit gratuit · 48h

GratuitRésultats en 48 hSans engagement

06 17 12 54 284,9Google4,96Sortlist4,3Trustpilot40+ clients B2B