Description du poste
À propos du rôle Nous recherchons un Scraper de Données de Médias Sociaux compétent et fiable pour concevoir, construire et maintenir des pipelines de collecte de données robustes à partir des principales plateformes sociales. Vous aiderez à collecter des données sociales publiques (publications, profils, commentaires, métriques d'engagement, hashtags, etc.) à grande échelle pour soutenir les études de marché, l'intelligence concurrentielle, l'analyse des tendances, la génération de leads ou les ensembles de données d'entraînement d'IA.
Responsabilités Clés
- Concevoir et développer des web scrapers / crawlers fiables et efficaces ciblant les plateformes de médias sociaux (X/Twitter, Instagram, LinkedIn, Facebook, TikTok, Reddit, YouTube, etc.)
- Gérer les pages dynamiques fortement basées sur JavaScript en utilisant l'automatisation de navigateur lorsque les API ne sont pas suffisantes ou disponibles
- Mettre en œuvre des techniques anti-détection / anti-blocage (proxies rotatifs, rotation d'agents utilisateurs, évasion d'empreintes digitales, limitation de débit, furtivité de navigateur headless, etc.)
- Analyser, nettoyer, structurer et stocker les données extraites (JSON, CSV, bases de données, stockage cloud)
- Surveiller la santé des scrapers, détecter et corriger rapidement les ruptures causées par les modifications de l'interface utilisateur / API des plateformes
- Travailler avec de grands volumes de données tout en respectant les contraintes de mémoire / CPU
- Assurer des pratiques de scraping éthiques et rester conforme aux directives d'utilisation des données publiques et aux lois pertinentes
- Intégrer occasionnellement des API officielles lorsqu'elles offrent un accès meilleur / plus stable
- Collaborer avec les analystes de données, les ingénieurs ML ou les équipes produit pour affiner les exigences de données et les formats de sortie
- Documenter votre code, les décisions d'architecture et les procédures de maintenance
Compétences et Expérience Indispensables
- Maîtrise approfondie de Python (langage principal pour la plupart des travaux de scraping modernes)
- Expérience pratique avec les bibliothèques de scraping / automatisation populaires :
- requests + httpx / aiohttp
- BeautifulSoup / lxml / parsel
- Scrapy (fortement préféré pour le crawling à grande échelle)
- Playwright / Puppeteer / Selenium (pour le contenu rendu en JS)
- Solide compréhension de HTTP, des cookies, des sessions, des en-têtes, de l'empreinte TLS (TLS fingerprinting)
- Expérience pratique du contournement des mesures anti-bot courantes (Cloudflare, DataDome, Akamai, défis JS personnalisés…)
- A l'aise avec les proxies (résidentiels / mobiles / datacenter), les services de rotation de proxies et les services de résolution de CAPTCHA
- Expérience du stockage des données scrapées dans PostgreSQL, MongoDB, SQLite, S3, BigQuery ou similaire
- Git pour le contrôle de version et compréhension de base de CI/CD pour les déploiements de scrapers
- Capacité à écrire du code propre, modulaire, bien documenté et maintenable
Souhaitable (un grand plus)
- Expérience de scraping d'au moins 3 à 4 grands réseaux sociaux à une échelle significative (10k à 1M+ éléments/jour)
- Familiarité avec asyncio / scrapy-twisted / dramatiq / celery pour le scraping parallèle / distribué
- Connaissance de Docker, Kubernetes ou des fonctions cloud pour le déploiement
- Compréhension de base des pipelines de données (Airflow, Dagster, Prefect…)
- Expérience avec les navigateurs headless à empreintes digitales (undetected-chromedriver, plugins stealth…)
- Expérience antérieure avec les API des médias sociaux (lorsqu'elles sont disponibles) et leurs limites / restrictions de débit
Types d'emploi : Temps plein, Temps partiel, Contrat
