Automatisation de recherche web avec n8n : extraction de données
Ce workflow n8n a pour objectif d'automatiser la recherche et l'extraction de données à partir de pages web. Dans un contexte où les entreprises ont besoin d'accéder rapidement à des informations pertinentes pour leurs activités, ce workflow permet de récupérer des schémas d'API et d'autres contenus de manière efficace. Il est particulièrement utile pour les équipes de développement, les chercheurs ou toute organisation souhaitant automatiser la collecte de données en ligne. Étape 1 : Le flux commence par un déclencheur manuel, permettant à l'utilisateur de tester le workflow. Étape 2 : Une requête HTTP est effectuée pour rechercher un schéma d'API. Étape 3 : Les contenus des pages web sont ensuite extraits via une autre requête HTTP. Étape 4 : Les résultats sont divisés en listes pour un traitement ultérieur. Étape 5 : Chaque document est ensuite analysé et les embeddings sont créés à l'aide du modèle Google Gemini. Les données sont ensuite stockées et filtrées pour ne conserver que les résultats pertinents. Ce workflow offre une solution rapide et efficace pour la collecte d'informations, réduisant ainsi le temps consacré à la recherche manuelle et augmentant la productivité des équipes.
À qui s'adresse ce workflow ?
Ce workflow s'adresse aux équipes techniques, chercheurs et développeurs qui souhaitent automatiser la collecte de données à partir de sources web. Il est idéal pour les entreprises de taille moyenne à grande qui ont besoin d'accéder rapidement à des informations précises pour leurs projets.
Ce que ce workflow résout
Ce workflow résout le problème de la recherche manuelle d'informations sur le web, qui peut être chronophage et inefficace. En automatisant ce processus, les utilisateurs peuvent réduire le temps passé à chercher des données et minimiser les erreurs humaines. Après mise en place, les utilisateurs bénéficient d'une extraction rapide et fiable des informations nécessaires, leur permettant de se concentrer sur des tâches à plus forte valeur ajoutée.
Comment ça fonctionne
Étape 1 : Le workflow est déclenché manuellement.
- 01Étape 1 : Une requête HTTP est envoyée pour rechercher un schéma d'API.
- 02Étape 2 : Les contenus des pages web sont extraits via une autre requête HTTP.
- 03Étape 3 : Les résultats sont divisés en listes pour un traitement ultérieur.
- 04Étape 4 : Chaque document est analysé et les embeddings sont créés à l'aide du modèle Google Gemini.
- 05Étape 5 : Les données sont stockées et filtrées pour ne conserver que les résultats pertinents.
On adapte ce workflow à votre stack.
CRM, outils internes, briques métier — on connecte tout via n8n et on vous livre une automatisation prête à l'emploi.
Visualisation du workflow n8n
Schéma des nœuds et connexions de ce workflow n8n, généré à partir du JSON n8n.
Importer dans n8n en un clic
Inscris-toi gratuitement pour télécharger le fichier .json, puis fais Import from File dans n8n pour déployer le workflow en quelques secondes.
Inscris-toi gratuitement pour télécharger le workflow et l'importer dans n8n.
Télécharger gratuitementInscription en 30 secondes · Sans CB
Personnaliser ce workflow
Pour personnaliser ce workflow, vous pouvez modifier l'URL de la requête HTTP pour cibler d'autres pages web. Vous pouvez également ajuster les paramètres d'extraction pour affiner les données récupérées. Si vous souhaitez intégrer d'autres outils, vous pouvez ajouter des nœuds supplémentaires pour traiter les données extraites. Assurez-vous de sécuriser le flux en configurant correctement les authentifications nécessaires pour les API utilisées.
Détail des nœuds n8n
- 01When clicking ‘Test workflow’
Déclenche le workflow lorsque l'utilisateur clique sur 'Test workflow'.
- 02Web Search For API Schema
Effectue une requête HTTP pour rechercher un schéma d'API.
- 03Scrape Webpage Contents
Récupère le contenu d'une page web via une requête HTTP.
- 04Results to List
Divise les résultats en une liste selon les options spécifiées.
- 05Recursive Character Text Splitter1
Divise le texte en morceaux de caractères de manière récursive.
- 06Content Chunking @ 50k Chars
Définit des variables pour le contenu en morceaux de 50 000 caractères.
- 07Split Out Chunks
Divise les morceaux en fonction des options et du champ spécifié.
- 08Default Data Loader
Charge les données par défaut depuis un document.
- 09Set Embedding Variables
Définit des variables d'embedding pour le traitement ultérieur.
- 10Execute Workflow Trigger
Exécute un déclencheur de workflow pour démarrer un autre workflow.
- 11Execution Data
Sauvegarde des données d'exécution pour un suivi ultérieur.
- 12EventRouter
Évalue les conditions et dirige le flux en conséquence.
- 13Google Gemini Chat Model
Utilise le modèle de chat Google Gemini pour générer des réponses.
- 14Successful Runs
Filtre les résultats pour ne garder que ceux qui sont réussis.
- 15For Each Document...
Divise les documents en lots pour un traitement par la suite.
- 16Embeddings Google Gemini
Génère des embeddings à l'aide du modèle Google Gemini.
- 17Has API Documentation?
Classifie le texte pour déterminer s'il contient une documentation API.
- 18Store Document Embeddings
Stocke les embeddings de documents dans une base de données Qdrant.
- 19Embeddings Google Gemini1
Génère des embeddings à l'aide d'une autre instance du modèle Google Gemini.
- 20Google Gemini Chat Model1
Utilise à nouveau le modèle de chat Google Gemini pour générer des réponses.
- 21Extract API Operations
Extrait les opérations API à partir du texte fourni.
- 22Search in Relevant Docs
Recherche dans les documents pertinents en utilisant Qdrant.
- 23Wait
Met en pause le workflow pendant une durée spécifiée.
- 24Remove Dupes
Supprime les doublons dans les résultats en fonction des champs spécifiés.
- 25Filter Results
Filtre les résultats selon des conditions définies.
- 26Research
Exécute un autre workflow pour effectuer des recherches.
- 27Has Results?
Évalue si des résultats sont présents et dirige le flux en conséquence.
- 28Response Empty
Définit une réponse vide pour le traitement ultérieur.
- 29Response OK
Définit une réponse OK pour indiquer un succès.
- 30Combine Docs
Combine plusieurs documents en un seul ensemble.
- 31Template to List
Divise un modèle en une liste selon les options spécifiées.
- 32Query Templates
Définit des variables pour les modèles de requête.
- 33Google Gemini Chat Model2
Utilise le modèle de chat Google Gemini pour générer des réponses à nouveau.
- 34For Each Template...
Divise les modèles en lots pour un traitement par la suite.
- 35Query & Docs
Définit des variables pour les requêtes et les documents.
- 36Identify Service Products
Identifie les produits de service à partir du texte fourni.
- 37Extract API Templates
Définit des variables pour les modèles d'API.
- 38Embeddings Google Gemini2
Génère des embeddings à l'aide d'une autre instance du modèle Google Gemini.
- 39Search in Relevant Docs1
Recherche dans les documents pertinents en utilisant Qdrant à nouveau.
- 40Combine Docs1
Combine plusieurs documents en un seul ensemble à nouveau.
- 41Query & Docs1
Définit des variables pour les requêtes et les documents à nouveau.
- 42For Each Template...1
Divise les modèles en lots pour un traitement par la suite à nouveau.
- 43Merge Lists
Fusionne plusieurs listes en une seule à l'aide de code JavaScript.
- 44Remove Duplicates
Supprime les doublons dans les résultats en fonction des champs spécifiés à nouveau.
- 45Append Row
Ajoute une ligne dans une feuille Google Sheets avec les colonnes spécifiées.
- 46Response OK1
Définit une réponse OK pour indiquer un succès à nouveau.
- 47Has Operations?
Évalue si des opérations sont présentes et dirige le flux en conséquence.
- 48Response Empty1
Définit une réponse vide pour le traitement ultérieur à nouveau.
- 49Research Pending
Ajoute des données de recherche dans une feuille Google Sheets.
- 50Research Result
Ajoute les résultats de recherche dans une feuille Google Sheets.
Vous n'avez pas besoin de plus de canaux.
Vous avez besoin d'un pilote.
Audit gratuit · 48hGratuitRésultats en 48 hSans engagement
06 17 12 54 284,9Google4,96Sortlist4,3Trustpilot40+ clients B2B