Ambition Gulf trouver un job au moyen orient

Planet Memes Studio

Extracteur de données des réseaux sociaux

Planet Memes Studio
Publié le 3/1/2026

Description du poste

À propos du rôle Nous recherchons un Scraper de Données de Médias Sociaux compétent et fiable pour concevoir, construire et maintenir des pipelines de collecte de données robustes à partir des principales plateformes sociales. Vous aiderez à collecter des données sociales publiques (publications, profils, commentaires, métriques d'engagement, hashtags, etc.) à grande échelle pour soutenir les études de marché, l'intelligence concurrentielle, l'analyse des tendances, la génération de leads ou les ensembles de données d'entraînement d'IA.

Responsabilités Clés

  • Concevoir et développer des web scrapers / crawlers fiables et efficaces ciblant les plateformes de médias sociaux (X/Twitter, Instagram, LinkedIn, Facebook, TikTok, Reddit, YouTube, etc.)
  • Gérer les pages dynamiques fortement basées sur JavaScript en utilisant l'automatisation de navigateur lorsque les API ne sont pas suffisantes ou disponibles
  • Mettre en œuvre des techniques anti-détection / anti-blocage (proxies rotatifs, rotation d'agents utilisateurs, évasion d'empreintes digitales, limitation de débit, furtivité de navigateur headless, etc.)
  • Analyser, nettoyer, structurer et stocker les données extraites (JSON, CSV, bases de données, stockage cloud)
  • Surveiller la santé des scrapers, détecter et corriger rapidement les ruptures causées par les modifications de l'interface utilisateur / API des plateformes
  • Travailler avec de grands volumes de données tout en respectant les contraintes de mémoire / CPU
  • Assurer des pratiques de scraping éthiques et rester conforme aux directives d'utilisation des données publiques et aux lois pertinentes
  • Intégrer occasionnellement des API officielles lorsqu'elles offrent un accès meilleur / plus stable
  • Collaborer avec les analystes de données, les ingénieurs ML ou les équipes produit pour affiner les exigences de données et les formats de sortie
  • Documenter votre code, les décisions d'architecture et les procédures de maintenance

Compétences et Expérience Indispensables

  • Maîtrise approfondie de Python (langage principal pour la plupart des travaux de scraping modernes)
  • Expérience pratique avec les bibliothèques de scraping / automatisation populaires :
  • requests + httpx / aiohttp
  • BeautifulSoup / lxml / parsel
  • Scrapy (fortement préféré pour le crawling à grande échelle)
  • Playwright / Puppeteer / Selenium (pour le contenu rendu en JS)
  • Solide compréhension de HTTP, des cookies, des sessions, des en-têtes, de l'empreinte TLS (TLS fingerprinting)
  • Expérience pratique du contournement des mesures anti-bot courantes (Cloudflare, DataDome, Akamai, défis JS personnalisés…)
  • A l'aise avec les proxies (résidentiels / mobiles / datacenter), les services de rotation de proxies et les services de résolution de CAPTCHA
  • Expérience du stockage des données scrapées dans PostgreSQL, MongoDB, SQLite, S3, BigQuery ou similaire
  • Git pour le contrôle de version et compréhension de base de CI/CD pour les déploiements de scrapers
  • Capacité à écrire du code propre, modulaire, bien documenté et maintenable

Souhaitable (un grand plus)

  • Expérience de scraping d'au moins 3 à 4 grands réseaux sociaux à une échelle significative (10k à 1M+ éléments/jour)
  • Familiarité avec asyncio / scrapy-twisted / dramatiq / celery pour le scraping parallèle / distribué
  • Connaissance de Docker, Kubernetes ou des fonctions cloud pour le déploiement
  • Compréhension de base des pipelines de données (Airflow, Dagster, Prefect…)
  • Expérience avec les navigateurs headless à empreintes digitales (undetected-chromedriver, plugins stealth…)
  • Expérience antérieure avec les API des médias sociaux (lorsqu'elles sont disponibles) et leurs limites / restrictions de débit

Types d'emploi : Temps plein, Temps partiel, Contrat

Nous utilisons des cookies pour faire fonctionner le site et, avec votre accord, pour analyser notre trafic.