- Accueil
- /
- Sécurité & conformité
- /
- Sources OSINT : cartographie complète des données exploitables en source ouverte
Sources OSINT : cartographie complète des données exploitables en source ouverte
Deuxième chapitre du guide OSINT : explorez l'ensemble des sources de renseignement en source ouverte, du web ouvert au dark web.
Chaque jour, les entreprises, leurs dirigeants et leurs collaborateurs produisent involontairement des milliers de points de données accessibles à quiconque sait où chercher. Un communiqué de presse anodin, un profil LinkedIn mis à jour, une photo publiée sur Instagram avec ses métadonnées GPS, un sous-domaine oublié indexé par un moteur spécialisé : autant de fragments qui, assemblés, composent un portrait d’une précision redoutable.
Après avoir posé les fondamentaux de l’OSINT et le cycle du renseignement dans le premier chapitre, ce deuxième volet du guide cartographie l’ensemble des sources exploitables en renseignement de source ouverte. L’objectif n’est pas de former des espions, mais de permettre aux décideurs et aux responsables sécurité de comprendre l’étendue de ce qui est exposé pour mieux le maîtriser.
Connaître les sources, c’est comprendre la surface d’attaque informationnelle de son organisation. Chacune des catégories présentées ici constitue un vecteur que les attaquants exploitent quotidiennement lors de la phase de reconnaissance.
Web ouvert et moteurs de recherche
Les moteurs généralistes : au-delà de Google
Le web ouvert constitue la première couche de sources OSINT, la plus accessible et souvent la plus sous-estimée. Google indexe environ 60 milliards de pages, mais ne représente qu’une fraction de l’information disponible. Chaque moteur de recherche offre des résultats différents en fonction de ses algorithmes et de sa couverture géographique.
Google reste l’outil de référence, notamment grâce à ses opérateurs avancés (Google Dorking) qui permettent de cibler des types de fichiers, des répertoires ou des informations spécifiques. La requête site:entreprise.fr filetype:pdf peut révéler des documents internes indexés par erreur. L’opérateur inurl:admin combiné au nom de domaine d’une organisation expose parfois des interfaces d’administration.
Bing et Yandex ne doivent pas être négligés. Bing indexe certaines pages que Google ignore, et ses opérateurs permettent des recherches complémentaires. Yandex, le moteur russe, possède un algorithme de recherche d’images inversée particulièrement performant et indexe des contenus différents de ses concurrents occidentaux, ce qui peut révéler des informations invisibles sur Google.
Pages en cache et archives web
Une information supprimée d’un site web n’a pas disparu pour autant. Le cache de Google conserve des snapshots de pages indexées, permettant d’accéder à des contenus modifiés ou retirés. La Wayback Machine d’Internet Archive va plus loin : elle stocke des captures périodiques de sites web depuis 1996.
Pour une entreprise, cela signifie que d’anciennes versions de son site — contenant potentiellement des organigrammes périmés, des adresses email internes, des noms de serveurs ou des documents techniques — restent accessibles pendant des années. Un attaquant peut comparer les versions successives d’un site pour identifier des changements d’infrastructure, des départs de personnel ou des technologies abandonnées.
Google Alerts et surveillance continue
Google Alerts constitue un outil de monitoring élémentaire mais utile. En configurant des alertes sur le nom de l’entreprise, les noms des dirigeants, les adresses IP ou les noms de domaine, une organisation peut être notifiée lorsque de nouvelles mentions apparaissent dans l’index Google. C’est un premier pas vers une veille informationnelle défensive que des outils plus sophistiqués viendront compléter (chapitre 3 du guide).
SOCMINT : le renseignement via les réseaux sociaux
Le Social Media Intelligence (SOCMINT) désigne la collecte et l’analyse de renseignement à partir des réseaux sociaux. C’est l’une des sources les plus riches et les plus exploitées en OSINT, car les individus y publient volontairement une quantité considérable d’informations personnelles et professionnelles.
LinkedIn : la mine d’or de la reconnaissance professionnelle
LinkedIn est sans doute la source OSINT la plus précieuse pour un attaquant ciblant une entreprise. La plateforme expose, souvent sans que les organisations en mesurent l’ampleur :
- L’organigramme de facto : en listant les employés d’une entreprise et leurs intitulés de poste, un attaquant reconstitue la structure hiérarchique, identifie les décideurs et repère les fonctions sensibles (administrateurs systèmes, responsables financiers, DPO)
- Les technologies utilisées : les profils des ingénieurs et administrateurs mentionnent les outils qu’ils maîtrisent (Cisco, Palo Alto, SAP, AWS), révélant indirectement la stack technique de l’entreprise
- Les mouvements de personnel : les départs et arrivées signalent des périodes de transition potentiellement vulnérables. Un nouveau RSSI qui publie “ravi de rejoindre l’équipe” indique un changement de gouvernance sécurité
- Les formations suivies : un salarié qui annonce une certification en réponse aux incidents suggère que l’entreprise renforce ses capacités dans ce domaine, potentiellement en réaction à un incident passé
Un attaquant méthodique n’a besoin que de 30 minutes sur LinkedIn pour identifier la personne la plus susceptible de cliquer sur un email de phishing, le prestataire IT externe à usurper et le sujet d’actualité interne à exploiter pour du spear phishing.
Twitter/X : communications, opinions et erreurs
Twitter/X offre un renseignement différent de LinkedIn. La plateforme capture des réactions spontanées, des opinions professionnelles et parfois des erreurs de jugement. Les comptes professionnels d’employés peuvent révéler :
- Des frustrations internes qui signalent des vulnérabilités organisationnelles
- Des commentaires techniques sur des pannes ou des incidents
- Des opinions sur des technologies qui confirment les choix d’infrastructure
- Des publications géolocalisées qui révèlent des déplacements professionnels
Les hashtags techniques et les fils de discussion sur des problèmes informatiques sont particulièrement révélateurs. Un administrateur système qui tweete “#Kubernetes en production, enfin stable après 3 mois de galère” vient de confirmer un choix technologique et une période de vulnérabilité.
Facebook et Instagram : la vie personnelle comme vecteur d’attaque
Facebook et Instagram exposent la vie personnelle des collaborateurs, ce qui intéresse directement les attaquants pratiquant l’ingénierie sociale. Les informations exploitables incluent :
- Centres d’intérêt : un directeur financier passionné de golf recevra un email de phishing imitant une invitation à un tournoi
- Relations familiales : l’identification du conjoint, des enfants ou des proches permet de personnaliser des attaques ou de créer de faux prétextes
- Habitudes et lieux fréquentés : les check-ins, les photos de vacances et les publications géolocalisées cartographient les déplacements
- Événements de vie : un déménagement, un changement familial ou un voyage à l’étranger créent des fenêtres d’opportunité pour des attaques ciblées
La frontière entre vie professionnelle et vie personnelle est poreuse. Un faux compte (sock puppet) peut envoyer une demande d’ami à un employé, accédant ainsi à des informations invisibles pour un profil non connecté.
Ce qu’un attaquant reconstitue depuis les réseaux sociaux
En croisant les données de LinkedIn, Twitter, Facebook et Instagram pour une même organisation, un attaquant obtient :
- Une cartographie humaine : qui fait quoi, qui parle à qui, qui voyage où
- Un profil technologique : quels outils, quels prestataires, quels projets en cours
- Des vecteurs de phishing personnalisés : quels sujets, quel ton, quels prétextes utiliser
- Un calendrier d’opportunités : quand l’entreprise est vulnérable (périodes de transition, absences de dirigeants, événements internes)
GEOINT : données géospatiales et imagerie
Le Geospatial Intelligence (GEOINT) appliqué à l’OSINT exploite les données de localisation et l’imagerie librement accessible pour obtenir du renseignement sur des sites physiques.
Imagerie satellite et cartographie
Google Maps, Google Earth et Bing Maps offrent une imagerie satellite et aérienne d’une résolution suffisante pour identifier des bâtiments, des accès, des parkings et des installations techniques. Pour une entreprise, ces outils permettent à un attaquant de :
- Repérer les points d’accès physiques : entrées principales, livraisons, parkings
- Identifier les équipements visibles : antennes, groupes électrogènes, climatisations de salles serveurs
- Évaluer les mesures de sécurité physique : clôtures, caméras, postes de garde
- Planifier une reconnaissance physique en amont d’une visite sur site
Google Street View complète l’imagerie satellite avec des vues au niveau de la rue, révélant des détails invisibles depuis le ciel : type de serrures, marques des systèmes de vidéosurveillance, badges d’accès portés par des employés photographiés, panneaux d’affichage internes visibles par les fenêtres.
Métadonnées GPS dans les photos (EXIF)
Chaque photo numérique contient des métadonnées EXIF (Exchangeable Image File Format) qui peuvent inclure les coordonnées GPS du lieu de prise de vue, la date et l’heure exactes, le modèle d’appareil utilisé et parfois le nom du propriétaire de l’appareil.
Un employé qui publie une photo prise dans les locaux de l’entreprise peut involontairement géolocaliser précisément le bâtiment. Certaines plateformes (notamment Twitter et Facebook) suppriment les données EXIF lors du téléchargement, mais ce n’est pas systématique. Les photos partagées par email, sur des forums ou des sites personnels conservent généralement leurs métadonnées complètes.
Applications de géolocalisation et données de mobilité
Les applications de fitness (Strava, Garmin Connect), de transport (Uber, Waze) et de réseaux sociaux géolocalisés créent des traces de mobilité exploitables. En 2018, l’application Strava a involontairement révélé l’emplacement de bases militaires secrètes en publiant une carte mondiale des parcours de jogging de ses utilisateurs. Le même principe s’applique aux entreprises : les habitudes de déplacement des dirigeants, les trajets domicile-travail et les lieux de réunion deviennent observables.
Registres et bases de données publics : le cas français
La France dispose d’un écosystème particulièrement riche en données publiques ouvertes, ce qui constitue à la fois un atout démocratique et un vecteur d’exposition pour les entreprises.
Registres commerciaux et financiers
- Societe.com et Pappers : chiffre d’affaires, résultats, dirigeants, bilans financiers, établissements secondaires et liens capitalistiques. Ces plateformes permettent de cartographier la structure juridique d’un groupe en quelques clics
- Infogreffe : accès aux actes déposés au greffe (statuts, procès-verbaux d’assemblées, nominations), révélant la gouvernance et les décisions stratégiques
- BODACC (Bulletin Officiel des Annonces Civiles et Commerciales) : publications légales incluant les créations, modifications, cessions et procédures collectives
Propriété intellectuelle et innovation
- INPI : les dépôts de brevets et de marques révèlent les axes de recherche et développement d’une entreprise, parfois des mois avant toute annonce publique. Un concurrent ou un attaquant peut anticiper des lancements de produits en surveillant ces dépôts
- Espacenet (Office européen des brevets) : couverture internationale des brevets, permettant de retracer l’activité innovante d’un groupe à l’échelle mondiale
Données ouvertes gouvernementales
Data.gouv.fr héberge des milliers de jeux de données publics : marchés publics attribués, subventions reçues, résultats d’inspections, données cadastrales. Pour un attaquant, les marchés publics sont particulièrement intéressants : ils révèlent les prestataires et technologies choisis par une organisation, les montants engagés et les cahiers des charges techniques.
Données techniques : DNS, Whois et Shodan
Le volet technique des registres publics constitue souvent la source la plus directement exploitable :
- Whois : les enregistrements de noms de domaine exposent les contacts administratifs et techniques, les serveurs DNS utilisés et les dates de renouvellement. Même avec la protection RGPD qui masque certaines données, les enregistrements historiques (via des services comme WhoisHistory) conservent les anciennes informations
- DNS (Domain Name System) : les enregistrements DNS publics (A, MX, TXT, CNAME) révèlent les adresses IP des serveurs, les fournisseurs de messagerie, les configurations de sécurité email (SPF, DKIM, DMARC) et les sous-domaines parfois oubliés
- Shodan : ce moteur de recherche spécialisé indexe les équipements connectés à Internet (serveurs, caméras, systèmes industriels, imprimantes). Une requête sur l’adresse IP d’une entreprise peut révéler des services exposés, des versions logicielles vulnérables et des configurations défaillantes
- Censys et Zoomeye : alternatives à Shodan, avec des capacités complémentaires d’analyse de certificats SSL et de détection de services
Dark web et fuites de données
Le dark web — l’ensemble des sites accessibles uniquement via des réseaux anonymes comme Tor — constitue une source OSINT spécifique, où circulent les données volées lors de cyberattaques.
Forums et marketplaces
Les marketplaces du dark web vendent des bases de données volées, des identifiants compromis, des numéros de carte bancaire et des accès VPN d’entreprise. Les forums spécialisés (comme ceux utilisés par des groupes tels que ShinyHunters ou LockBit) publient des échantillons de données pour prouver l’authenticité de leurs fuites avant de les monétiser.
Pour une entreprise, surveiller ces espaces permet d’identifier rapidement si des données internes circulent après une brèche, parfois avant même que l’intrusion n’ait été détectée en interne.
Bases de fuites et vérification d’exposition
Have I Been Pwned (HIBP) est un service gratuit qui permet de vérifier si une adresse email apparaît dans des fuites de données connues. En interrogeant le domaine de l’entreprise, un responsable sécurité peut identifier quels comptes professionnels ont été compromis et dans quelles brèches.
Les paste sites (Pastebin, Ghostbin, et leurs successeurs) servent de support de publication éphémère où des attaquants diffusent des extraits de bases de données, des listes d’identifiants ou des clés d’API interceptées. Une veille régulière sur ces plateformes fait partie de l’arsenal OSINT défensif.
Data brokers : le commerce légal des données
Au-delà du dark web, un écosystème légal de courtiers en données (data brokers) agrège et revend des informations personnelles et professionnelles. Ces entreprises compilent des données provenant de registres publics, de programmes de fidélité, de réseaux sociaux et d’achats en ligne. Les profils ainsi constitués peuvent inclure des informations exploitables en OSINT : adresses, numéros de téléphone, habitudes de consommation et affiliations professionnelles.
Ce que ces sources révèlent sur votre entreprise
En croisant ces différentes catégories de sources, un attaquant motivé peut reconstituer en moins de 30 minutes un profil complet d’une entreprise : organigramme, technologies utilisées, vulnérabilités techniques, identifiants compromis et vecteurs d’ingénierie sociale personnalisés. Le tout sans enfreindre la moindre loi.
La plupart des organisations sous-estiment drastiquement cette exposition. L’écart entre ce que les dirigeants pensent être public et ce qui l’est réellement constitue un angle mort stratégique. Dans le chapitre 4 consacré à l’OSINT défensif, nous détaillerons un scénario pas à pas de cette reconnaissance et la méthodologie pour auditer votre propre exposition.
Vous ne savez pas par où commencer pour cartographier votre exposition ? Contactez nos équipes pour un premier diagnostic.
Notions essentielles abordées
GEOINT (Geospatial Intelligence)
Renseignement dérivé de l'exploitation de données géospatiales : imagerie satellite, cartographie, métadonnées GPS et données de mobilité accessibles publiquement.
EXIF (Exchangeable Image File Format)
Métadonnées embarquées dans les fichiers photo incluant coordonnées GPS, date, modèle d'appareil et parfois identité du propriétaire. Vecteur d'exposition souvent ignoré.
Lire l'article →Dark web
Ensemble de sites et services accessibles uniquement via des réseaux anonymes comme Tor. Espace où circulent des données volées, des identifiants compromis et des accès revendus.
Whois
Protocole et bases de données publiques contenant les informations d'enregistrement des noms de domaine : propriétaire, contacts administratifs, serveurs DNS et dates de renouvellement.
DNS (Domain Name System)
Système de résolution des noms de domaine en adresses IP. Ses enregistrements publics (A, MX, TXT, CNAME) révèlent l'infrastructure technique d'une organisation.
Data broker
Courtier en données qui agrège, enrichit et revend des informations personnelles et professionnelles collectées depuis des registres publics, réseaux sociaux et programmes commerciaux.
Lire l'article →Wayback Machine
Service d'Internet Archive capturant périodiquement des snapshots de sites web depuis 1996. Permet d'accéder à des contenus supprimés ou modifiés, y compris des données sensibles retirées.
📚 Sources et références ▼
Outils et plateformes de référence
Registres et données publics français
Cadre réglementaire et recommandations
Guide OSINT
Pour aller plus loin
OSINT : fondamentaux du renseignement en source ouverte pour les entreprises
Comprendre l'OSINT (Open Source Intelligence) : définition, cycle du renseignement, histoire et vocabulaire essentiel pour les décideurs.
Lire l'article → Sécurité & conformitéOutils OSINT : méthodes et frameworks pour le renseignement en source ouverte
Les outils OSINT essentiels pour les entreprises : Google Dorking, Maltego, SpiderFoot, Shodan et frameworks d'investigation structurés.
Lire l'article → Sécurité & conformitéLes métadonnées de téléphone : ce qu'elles révèlent sur vous
Découvrez ce que sont les métadonnées de téléphone, comment elles sont collectées et utilisées, et quels sont les enjeux pour notre vie privée à l'ère numérique.
Lire l'article → Gouvernance des donnéesAchat et revente de vos données personnelles : tout savoir sur les Courtiers en données (Data Broker)
Explorez le marché de milliards de dollars de l'achat/vente de données personnelles, avec plus de 4 000 courtiers.
Lire l'article →