skip to content

Sources OSINT : cartographie complète des données exploitables en source ouverte

Deuxième chapitre du guide OSINT : explorez l'ensemble des sources de renseignement en source ouverte, du web ouvert au dark web.

Nicolas Verlhiac : photo de l'auteur de l'article
Nicolas Verlhiac
10 min de lecture
Cartographie des sources OSINT : web ouvert, réseaux sociaux (SOCMINT), géolocalisation (GEOINT), dark web et registres publics français.

Chaque jour, les entreprises, leurs dirigeants et leurs collaborateurs produisent involontairement des milliers de points de données accessibles à quiconque sait où chercher. Un communiqué de presse anodin, un profil LinkedIn mis à jour, une photo publiée sur Instagram avec ses métadonnées GPS, un sous-domaine oublié indexé par un moteur spécialisé : autant de fragments qui, assemblés, composent un portrait d’une précision redoutable.

Après avoir posé les fondamentaux de l’OSINT et le cycle du renseignement dans le premier chapitre, ce deuxième volet du guide cartographie l’ensemble des sources exploitables en renseignement de source ouverte. L’objectif n’est pas de former des espions, mais de permettre aux décideurs et aux responsables sécurité de comprendre l’étendue de ce qui est exposé pour mieux le maîtriser.

Connaître les sources, c’est comprendre la surface d’attaque informationnelle de son organisation. Chacune des catégories présentées ici constitue un vecteur que les attaquants exploitent quotidiennement lors de la phase de reconnaissance.

Web ouvert et moteurs de recherche

Les moteurs généralistes : au-delà de Google

Le web ouvert constitue la première couche de sources OSINT, la plus accessible et souvent la plus sous-estimée. Google indexe environ 60 milliards de pages, mais ne représente qu’une fraction de l’information disponible. Chaque moteur de recherche offre des résultats différents en fonction de ses algorithmes et de sa couverture géographique.

Google reste l’outil de référence, notamment grâce à ses opérateurs avancés (Google Dorking) qui permettent de cibler des types de fichiers, des répertoires ou des informations spécifiques. La requête site:entreprise.fr filetype:pdf peut révéler des documents internes indexés par erreur. L’opérateur inurl:admin combiné au nom de domaine d’une organisation expose parfois des interfaces d’administration.

Bing et Yandex ne doivent pas être négligés. Bing indexe certaines pages que Google ignore, et ses opérateurs permettent des recherches complémentaires. Yandex, le moteur russe, possède un algorithme de recherche d’images inversée particulièrement performant et indexe des contenus différents de ses concurrents occidentaux, ce qui peut révéler des informations invisibles sur Google.

Pages en cache et archives web

Une information supprimée d’un site web n’a pas disparu pour autant. Le cache de Google conserve des snapshots de pages indexées, permettant d’accéder à des contenus modifiés ou retirés. La Wayback Machine d’Internet Archive va plus loin : elle stocke des captures périodiques de sites web depuis 1996.

Pour une entreprise, cela signifie que d’anciennes versions de son site — contenant potentiellement des organigrammes périmés, des adresses email internes, des noms de serveurs ou des documents techniques — restent accessibles pendant des années. Un attaquant peut comparer les versions successives d’un site pour identifier des changements d’infrastructure, des départs de personnel ou des technologies abandonnées.

Google Alerts et surveillance continue

Google Alerts constitue un outil de monitoring élémentaire mais utile. En configurant des alertes sur le nom de l’entreprise, les noms des dirigeants, les adresses IP ou les noms de domaine, une organisation peut être notifiée lorsque de nouvelles mentions apparaissent dans l’index Google. C’est un premier pas vers une veille informationnelle défensive que des outils plus sophistiqués viendront compléter (chapitre 3 du guide).

SOCMINT : le renseignement via les réseaux sociaux

Le Social Media Intelligence (SOCMINT) désigne la collecte et l’analyse de renseignement à partir des réseaux sociaux. C’est l’une des sources les plus riches et les plus exploitées en OSINT, car les individus y publient volontairement une quantité considérable d’informations personnelles et professionnelles.

LinkedIn : la mine d’or de la reconnaissance professionnelle

LinkedIn est sans doute la source OSINT la plus précieuse pour un attaquant ciblant une entreprise. La plateforme expose, souvent sans que les organisations en mesurent l’ampleur :

  • L’organigramme de facto : en listant les employés d’une entreprise et leurs intitulés de poste, un attaquant reconstitue la structure hiérarchique, identifie les décideurs et repère les fonctions sensibles (administrateurs systèmes, responsables financiers, DPO)
  • Les technologies utilisées : les profils des ingénieurs et administrateurs mentionnent les outils qu’ils maîtrisent (Cisco, Palo Alto, SAP, AWS), révélant indirectement la stack technique de l’entreprise
  • Les mouvements de personnel : les départs et arrivées signalent des périodes de transition potentiellement vulnérables. Un nouveau RSSI qui publie “ravi de rejoindre l’équipe” indique un changement de gouvernance sécurité
  • Les formations suivies : un salarié qui annonce une certification en réponse aux incidents suggère que l’entreprise renforce ses capacités dans ce domaine, potentiellement en réaction à un incident passé

Un attaquant méthodique n’a besoin que de 30 minutes sur LinkedIn pour identifier la personne la plus susceptible de cliquer sur un email de phishing, le prestataire IT externe à usurper et le sujet d’actualité interne à exploiter pour du spear phishing.

Twitter/X : communications, opinions et erreurs

Twitter/X offre un renseignement différent de LinkedIn. La plateforme capture des réactions spontanées, des opinions professionnelles et parfois des erreurs de jugement. Les comptes professionnels d’employés peuvent révéler :

  • Des frustrations internes qui signalent des vulnérabilités organisationnelles
  • Des commentaires techniques sur des pannes ou des incidents
  • Des opinions sur des technologies qui confirment les choix d’infrastructure
  • Des publications géolocalisées qui révèlent des déplacements professionnels

Les hashtags techniques et les fils de discussion sur des problèmes informatiques sont particulièrement révélateurs. Un administrateur système qui tweete “#Kubernetes en production, enfin stable après 3 mois de galère” vient de confirmer un choix technologique et une période de vulnérabilité.

Facebook et Instagram : la vie personnelle comme vecteur d’attaque

Facebook et Instagram exposent la vie personnelle des collaborateurs, ce qui intéresse directement les attaquants pratiquant l’ingénierie sociale. Les informations exploitables incluent :

  • Centres d’intérêt : un directeur financier passionné de golf recevra un email de phishing imitant une invitation à un tournoi
  • Relations familiales : l’identification du conjoint, des enfants ou des proches permet de personnaliser des attaques ou de créer de faux prétextes
  • Habitudes et lieux fréquentés : les check-ins, les photos de vacances et les publications géolocalisées cartographient les déplacements
  • Événements de vie : un déménagement, un changement familial ou un voyage à l’étranger créent des fenêtres d’opportunité pour des attaques ciblées

La frontière entre vie professionnelle et vie personnelle est poreuse. Un faux compte (sock puppet) peut envoyer une demande d’ami à un employé, accédant ainsi à des informations invisibles pour un profil non connecté.

Ce qu’un attaquant reconstitue depuis les réseaux sociaux

En croisant les données de LinkedIn, Twitter, Facebook et Instagram pour une même organisation, un attaquant obtient :

  1. Une cartographie humaine : qui fait quoi, qui parle à qui, qui voyage où
  2. Un profil technologique : quels outils, quels prestataires, quels projets en cours
  3. Des vecteurs de phishing personnalisés : quels sujets, quel ton, quels prétextes utiliser
  4. Un calendrier d’opportunités : quand l’entreprise est vulnérable (périodes de transition, absences de dirigeants, événements internes)

GEOINT : données géospatiales et imagerie

Le Geospatial Intelligence (GEOINT) appliqué à l’OSINT exploite les données de localisation et l’imagerie librement accessible pour obtenir du renseignement sur des sites physiques.

Imagerie satellite et cartographie

Google Maps, Google Earth et Bing Maps offrent une imagerie satellite et aérienne d’une résolution suffisante pour identifier des bâtiments, des accès, des parkings et des installations techniques. Pour une entreprise, ces outils permettent à un attaquant de :

  • Repérer les points d’accès physiques : entrées principales, livraisons, parkings
  • Identifier les équipements visibles : antennes, groupes électrogènes, climatisations de salles serveurs
  • Évaluer les mesures de sécurité physique : clôtures, caméras, postes de garde
  • Planifier une reconnaissance physique en amont d’une visite sur site

Google Street View complète l’imagerie satellite avec des vues au niveau de la rue, révélant des détails invisibles depuis le ciel : type de serrures, marques des systèmes de vidéosurveillance, badges d’accès portés par des employés photographiés, panneaux d’affichage internes visibles par les fenêtres.

Métadonnées GPS dans les photos (EXIF)

Chaque photo numérique contient des métadonnées EXIF (Exchangeable Image File Format) qui peuvent inclure les coordonnées GPS du lieu de prise de vue, la date et l’heure exactes, le modèle d’appareil utilisé et parfois le nom du propriétaire de l’appareil.

Un employé qui publie une photo prise dans les locaux de l’entreprise peut involontairement géolocaliser précisément le bâtiment. Certaines plateformes (notamment Twitter et Facebook) suppriment les données EXIF lors du téléchargement, mais ce n’est pas systématique. Les photos partagées par email, sur des forums ou des sites personnels conservent généralement leurs métadonnées complètes.

Applications de géolocalisation et données de mobilité

Les applications de fitness (Strava, Garmin Connect), de transport (Uber, Waze) et de réseaux sociaux géolocalisés créent des traces de mobilité exploitables. En 2018, l’application Strava a involontairement révélé l’emplacement de bases militaires secrètes en publiant une carte mondiale des parcours de jogging de ses utilisateurs. Le même principe s’applique aux entreprises : les habitudes de déplacement des dirigeants, les trajets domicile-travail et les lieux de réunion deviennent observables.

Registres et bases de données publics : le cas français

La France dispose d’un écosystème particulièrement riche en données publiques ouvertes, ce qui constitue à la fois un atout démocratique et un vecteur d’exposition pour les entreprises.

Registres commerciaux et financiers

  • Societe.com et Pappers : chiffre d’affaires, résultats, dirigeants, bilans financiers, établissements secondaires et liens capitalistiques. Ces plateformes permettent de cartographier la structure juridique d’un groupe en quelques clics
  • Infogreffe : accès aux actes déposés au greffe (statuts, procès-verbaux d’assemblées, nominations), révélant la gouvernance et les décisions stratégiques
  • BODACC (Bulletin Officiel des Annonces Civiles et Commerciales) : publications légales incluant les créations, modifications, cessions et procédures collectives

Propriété intellectuelle et innovation

  • INPI : les dépôts de brevets et de marques révèlent les axes de recherche et développement d’une entreprise, parfois des mois avant toute annonce publique. Un concurrent ou un attaquant peut anticiper des lancements de produits en surveillant ces dépôts
  • Espacenet (Office européen des brevets) : couverture internationale des brevets, permettant de retracer l’activité innovante d’un groupe à l’échelle mondiale

Données ouvertes gouvernementales

Data.gouv.fr héberge des milliers de jeux de données publics : marchés publics attribués, subventions reçues, résultats d’inspections, données cadastrales. Pour un attaquant, les marchés publics sont particulièrement intéressants : ils révèlent les prestataires et technologies choisis par une organisation, les montants engagés et les cahiers des charges techniques.

Données techniques : DNS, Whois et Shodan

Le volet technique des registres publics constitue souvent la source la plus directement exploitable :

  • Whois : les enregistrements de noms de domaine exposent les contacts administratifs et techniques, les serveurs DNS utilisés et les dates de renouvellement. Même avec la protection RGPD qui masque certaines données, les enregistrements historiques (via des services comme WhoisHistory) conservent les anciennes informations
  • DNS (Domain Name System) : les enregistrements DNS publics (A, MX, TXT, CNAME) révèlent les adresses IP des serveurs, les fournisseurs de messagerie, les configurations de sécurité email (SPF, DKIM, DMARC) et les sous-domaines parfois oubliés
  • Shodan : ce moteur de recherche spécialisé indexe les équipements connectés à Internet (serveurs, caméras, systèmes industriels, imprimantes). Une requête sur l’adresse IP d’une entreprise peut révéler des services exposés, des versions logicielles vulnérables et des configurations défaillantes
  • Censys et Zoomeye : alternatives à Shodan, avec des capacités complémentaires d’analyse de certificats SSL et de détection de services

Dark web et fuites de données

Le dark web — l’ensemble des sites accessibles uniquement via des réseaux anonymes comme Tor — constitue une source OSINT spécifique, où circulent les données volées lors de cyberattaques.

Forums et marketplaces

Les marketplaces du dark web vendent des bases de données volées, des identifiants compromis, des numéros de carte bancaire et des accès VPN d’entreprise. Les forums spécialisés (comme ceux utilisés par des groupes tels que ShinyHunters ou LockBit) publient des échantillons de données pour prouver l’authenticité de leurs fuites avant de les monétiser.

Pour une entreprise, surveiller ces espaces permet d’identifier rapidement si des données internes circulent après une brèche, parfois avant même que l’intrusion n’ait été détectée en interne.

Bases de fuites et vérification d’exposition

Have I Been Pwned (HIBP) est un service gratuit qui permet de vérifier si une adresse email apparaît dans des fuites de données connues. En interrogeant le domaine de l’entreprise, un responsable sécurité peut identifier quels comptes professionnels ont été compromis et dans quelles brèches.

Les paste sites (Pastebin, Ghostbin, et leurs successeurs) servent de support de publication éphémère où des attaquants diffusent des extraits de bases de données, des listes d’identifiants ou des clés d’API interceptées. Une veille régulière sur ces plateformes fait partie de l’arsenal OSINT défensif.

Data brokers : le commerce légal des données

Au-delà du dark web, un écosystème légal de courtiers en données (data brokers) agrège et revend des informations personnelles et professionnelles. Ces entreprises compilent des données provenant de registres publics, de programmes de fidélité, de réseaux sociaux et d’achats en ligne. Les profils ainsi constitués peuvent inclure des informations exploitables en OSINT : adresses, numéros de téléphone, habitudes de consommation et affiliations professionnelles.

Ce que ces sources révèlent sur votre entreprise

En croisant ces différentes catégories de sources, un attaquant motivé peut reconstituer en moins de 30 minutes un profil complet d’une entreprise : organigramme, technologies utilisées, vulnérabilités techniques, identifiants compromis et vecteurs d’ingénierie sociale personnalisés. Le tout sans enfreindre la moindre loi.

La plupart des organisations sous-estiment drastiquement cette exposition. L’écart entre ce que les dirigeants pensent être public et ce qui l’est réellement constitue un angle mort stratégique. Dans le chapitre 4 consacré à l’OSINT défensif, nous détaillerons un scénario pas à pas de cette reconnaissance et la méthodologie pour auditer votre propre exposition.

Vous ne savez pas par où commencer pour cartographier votre exposition ? Contactez nos équipes pour un premier diagnostic.

Notions essentielles abordées

SOCMINT (Social Media Intelligence)

Sous-discipline de l'OSINT dédiée à la collecte et l'analyse de renseignement à partir des réseaux sociaux (LinkedIn, Twitter, Facebook, Instagram).

GEOINT (Geospatial Intelligence)

Renseignement dérivé de l'exploitation de données géospatiales : imagerie satellite, cartographie, métadonnées GPS et données de mobilité accessibles publiquement.

EXIF (Exchangeable Image File Format)

Métadonnées embarquées dans les fichiers photo incluant coordonnées GPS, date, modèle d'appareil et parfois identité du propriétaire. Vecteur d'exposition souvent ignoré.

Lire l'article →

Dark web

Ensemble de sites et services accessibles uniquement via des réseaux anonymes comme Tor. Espace où circulent des données volées, des identifiants compromis et des accès revendus.

Whois

Protocole et bases de données publiques contenant les informations d'enregistrement des noms de domaine : propriétaire, contacts administratifs, serveurs DNS et dates de renouvellement.

DNS (Domain Name System)

Système de résolution des noms de domaine en adresses IP. Ses enregistrements publics (A, MX, TXT, CNAME) révèlent l'infrastructure technique d'une organisation.

Data broker

Courtier en données qui agrège, enrichit et revend des informations personnelles et professionnelles collectées depuis des registres publics, réseaux sociaux et programmes commerciaux.

Lire l'article →

Wayback Machine

Service d'Internet Archive capturant périodiquement des snapshots de sites web depuis 1996. Permet d'accéder à des contenus supprimés ou modifiés, y compris des données sensibles retirées.

📚 Sources et références