Ambition Gulf | Offres d'emploi pour francophones dans le Golfe

À propos du rôle Nous recherchons un Scraper de Données de Médias Sociaux compétent et fiable pour concevoir, construire et maintenir des pipelines de collecte de données robustes à partir des principales plateformes sociales. Vous aiderez à collecter des données sociales publiques (publications, profils, commentaires, métriques d'engagement, hashtags, etc.) à grande échelle pour soutenir les études de marché, l'intelligence concurrentielle, l'analyse des tendances, la génération de leads ou les ensembles de données d'entraînement d'IA.

Responsabilités Clés

Concevoir et développer des web scrapers / crawlers fiables et efficaces ciblant les plateformes de médias sociaux (X/Twitter, Instagram, LinkedIn, Facebook, TikTok, Reddit, YouTube, etc.)
Gérer les pages dynamiques fortement basées sur JavaScript en utilisant l'automatisation de navigateur lorsque les API ne sont pas suffisantes ou disponibles
Mettre en œuvre des techniques anti-détection / anti-blocage (proxies rotatifs, rotation d'agents utilisateurs, évasion d'empreintes digitales, limitation de débit, furtivité de navigateur headless, etc.)
Analyser, nettoyer, structurer et stocker les données extraites (JSON, CSV, bases de données, stockage cloud)
Surveiller la santé des scrapers, détecter et corriger rapidement les ruptures causées par les modifications de l'interface utilisateur / API des plateformes
Travailler avec de grands volumes de données tout en respectant les contraintes de mémoire / CPU
Assurer des pratiques de scraping éthiques et rester conforme aux directives d'utilisation des données publiques et aux lois pertinentes
Intégrer occasionnellement des API officielles lorsqu'elles offrent un accès meilleur / plus stable
Collaborer avec les analystes de données, les ingénieurs ML ou les équipes produit pour affiner les exigences de données et les formats de sortie
Documenter votre code, les décisions d'architecture et les procédures de maintenance

Compétences et Expérience Indispensables

Maîtrise approfondie de Python (langage principal pour la plupart des travaux de scraping modernes)
Expérience pratique avec les bibliothèques de scraping / automatisation populaires :
requests + httpx / aiohttp
BeautifulSoup / lxml / parsel
Scrapy (fortement préféré pour le crawling à grande échelle)
Playwright / Puppeteer / Selenium (pour le contenu rendu en JS)
Solide compréhension de HTTP, des cookies, des sessions, des en-têtes, de l'empreinte TLS (TLS fingerprinting)
Expérience pratique du contournement des mesures anti-bot courantes (Cloudflare, DataDome, Akamai, défis JS personnalisés…)
A l'aise avec les proxies (résidentiels / mobiles / datacenter), les services de rotation de proxies et les services de résolution de CAPTCHA
Expérience du stockage des données scrapées dans PostgreSQL, MongoDB, SQLite, S3, BigQuery ou similaire
Git pour le contrôle de version et compréhension de base de CI/CD pour les déploiements de scrapers
Capacité à écrire du code propre, modulaire, bien documenté et maintenable

Souhaitable (un grand plus)

Expérience de scraping d'au moins 3 à 4 grands réseaux sociaux à une échelle significative (10k à 1M+ éléments/jour)
Familiarité avec asyncio / scrapy-twisted / dramatiq / celery pour le scraping parallèle / distribué
Connaissance de Docker, Kubernetes ou des fonctions cloud pour le déploiement
Compréhension de base des pipelines de données (Airflow, Dagster, Prefect…)
Expérience avec les navigateurs headless à empreintes digitales (undetected-chromedriver, plugins stealth…)
Expérience antérieure avec les API des médias sociaux (lorsqu'elles sont disponibles) et leurs limites / restrictions de débit

Types d'emploi : Temps plein, Temps partiel, Contrat

Extracteur de données des réseaux sociaux

Description du poste