Sources OSINT : données exploitables en source ouverte

Chaque jour, les entreprises, leurs dirigeants et leurs collaborateurs produisent involontairement des milliers de points de données accessibles à quiconque sait où chercher. Un communiqué de presse anodin, un profil LinkedIn mis à jour, une photo publiée sur Instagram avec ses métadonnées GPS, un sous-domaine oublié indexé par un moteur spécialisé : autant de fragments qui, assemblés, composent un portrait d’une précision redoutable.

Après avoir posé les fondamentaux de l’OSINT et le cycle du renseignement dans le premier chapitre, ce deuxième volet du guide cartographie l’ensemble des sources exploitables en renseignement de source ouverte. L’objectif n’est pas de former des espions, mais de permettre aux décideurs et aux responsables sécurité de comprendre l’étendue de ce qui est exposé pour mieux le maîtriser.

Connaître les sources, c’est comprendre la surface d’attaque informationnelle de son organisation. Chacune des catégories présentées ici constitue un vecteur que les attaquants exploitent quotidiennement lors de la phase de reconnaissance.

Web ouvert et moteurs de recherche

Les moteurs généralistes : au-delà de Google

Le web ouvert constitue la première couche de sources OSINT, la plus accessible et souvent la plus sous-estimée. Google indexe environ 60 milliards de pages, mais ne représente qu’une fraction de l’information disponible. Chaque moteur de recherche offre des résultats différents en fonction de ses algorithmes et de sa couverture géographique.

Google reste l’outil de référence, notamment grâce à ses opérateurs avancés (Google Dorking) qui permettent de cibler des types de fichiers, des répertoires ou des informations spécifiques. La requête site:entreprise.fr filetype:pdf peut révéler des documents internes indexés par erreur. L’opérateur inurl:admin combiné au nom de domaine d’une organisation expose parfois des interfaces d’administration.

Bing et Yandex ne doivent pas être négligés. Bing indexe certaines pages que Google ignore, et ses opérateurs permettent des recherches complémentaires. Yandex, le moteur russe, possède un algorithme de recherche d’images inversée particulièrement performant et indexe des contenus différents de ses concurrents occidentaux, ce qui peut révéler des informations invisibles sur Google.

Pages en cache et archives web

Une information supprimée d’un site web n’a pas disparu pour autant. Le cache de Google conserve des snapshots de pages indexées, permettant d’accéder à des contenus modifiés ou retirés. La Wayback Machine d’Internet Archive va plus loin : elle stocke des captures périodiques de sites web depuis 1996.

Pour une entreprise, cela signifie que d’anciennes versions de son site — contenant potentiellement des organigrammes périmés, des adresses email internes, des noms de serveurs ou des documents techniques — restent accessibles pendant des années. Un attaquant peut comparer les versions successives d’un site pour identifier des changements d’infrastructure, des départs de personnel ou des technologies abandonnées.

Google Alerts et surveillance continue

Google Alerts constitue un outil de monitoring élémentaire mais utile. En configurant des alertes sur le nom de l’entreprise, les noms des dirigeants, les adresses IP ou les noms de domaine, une organisation peut être notifiée lorsque de nouvelles mentions apparaissent dans l’index Google. C’est un premier pas vers une veille informationnelle défensive que des outils plus sophistiqués viendront compléter (chapitre 3 du guide).

SOCMINT : le renseignement via les réseaux sociaux

Le Social Media Intelligence (SOCMINT) désigne la collecte et l’analyse de renseignement à partir des réseaux sociaux. C’est l’une des sources les plus riches et les plus exploitées en OSINT, car les individus y publient volontairement une quantité considérable d’informations personnelles et professionnelles.

LinkedIn : la mine d’or de la reconnaissance professionnelle

LinkedIn est sans doute la source OSINT la plus précieuse pour un attaquant ciblant une entreprise. La plateforme expose, souvent sans que les organisations en mesurent l’ampleur :

L’organigramme de facto : en listant les employés d’une entreprise et leurs intitulés de poste, un attaquant reconstitue la structure hiérarchique, identifie les décideurs et repère les fonctions sensibles (administrateurs systèmes, responsables financiers, DPO)
Les technologies utilisées : les profils des ingénieurs et administrateurs mentionnent les outils qu’ils maîtrisent (Cisco, Palo Alto, SAP, AWS), révélant indirectement la stack technique de l’entreprise
Les mouvements de personnel : les départs et arrivées signalent des périodes de transition potentiellement vulnérables. Un nouveau RSSI qui publie “ravi de rejoindre l’équipe” indique un changement de gouvernance sécurité
Les formations suivies : un salarié qui annonce une certification en réponse aux incidents suggère que l’entreprise renforce ses capacités dans ce domaine, potentiellement en réaction à un incident passé

Un attaquant méthodique n’a besoin que de 30 minutes sur LinkedIn pour identifier la personne la plus susceptible de cliquer sur un email de phishing, le prestataire IT externe à usurper et le sujet d’actualité interne à exploiter pour du spear phishing.

Twitter/X : communications, opinions et erreurs

Twitter/X offre un renseignement différent de LinkedIn. La plateforme capture des réactions spontanées, des opinions professionnelles et parfois des erreurs de jugement. Les comptes professionnels d’employés peuvent révéler :

Des frustrations internes qui signalent des vulnérabilités organisationnelles
Des commentaires techniques sur des pannes ou des incidents
Des opinions sur des technologies qui confirment les choix d’infrastructure
Des publications géolocalisées qui révèlent des déplacements professionnels

Les hashtags techniques et les fils de discussion sur des problèmes informatiques sont particulièrement révélateurs. Un administrateur système qui tweete “#Kubernetes en production, enfin stable après 3 mois de galère” vient de confirmer un choix technologique et une période de vulnérabilité.

Facebook et Instagram : la vie personnelle comme vecteur d’attaque

Facebook et Instagram exposent la vie personnelle des collaborateurs, ce qui intéresse directement les attaquants pratiquant l’ingénierie sociale. Les informations exploitables incluent :

Centres d’intérêt : un directeur financier passionné de golf recevra un email de phishing imitant une invitation à un tournoi
Relations familiales : l’identification du conjoint, des enfants ou des proches permet de personnaliser des attaques ou de créer de faux prétextes
Habitudes et lieux fréquentés : les check-ins, les photos de vacances et les publications géolocalisées cartographient les déplacements
Événements de vie : un déménagement, un changement familial ou un voyage à l’étranger créent des fenêtres d’opportunité pour des attaques ciblées

La frontière entre vie professionnelle et vie personnelle est poreuse. Un faux compte (sock puppet) peut envoyer une demande d’ami à un employé, accédant ainsi à des informations invisibles pour un profil non connecté.

Ce qu’un attaquant reconstitue depuis les réseaux sociaux

En croisant les données de LinkedIn, Twitter, Facebook et Instagram pour une même organisation, un attaquant obtient :

Une cartographie humaine : qui fait quoi, qui parle à qui, qui voyage où
Un profil technologique : quels outils, quels prestataires, quels projets en cours
Des vecteurs de phishing personnalisés : quels sujets, quel ton, quels prétextes utiliser
Un calendrier d’opportunités : quand l’entreprise est vulnérable (périodes de transition, absences de dirigeants, événements internes)

GEOINT : données géospatiales et imagerie

Le Geospatial Intelligence (GEOINT) appliqué à l’OSINT exploite les données de localisation et l’imagerie librement accessible pour obtenir du renseignement sur des sites physiques.

Imagerie satellite et cartographie

Google Maps, Google Earth et Bing Maps offrent une imagerie satellite et aérienne d’une résolution suffisante pour identifier des bâtiments, des accès, des parkings et des installations techniques. Pour une entreprise, ces outils permettent à un attaquant de :

Repérer les points d’accès physiques : entrées principales, livraisons, parkings
Identifier les équipements visibles : antennes, groupes électrogènes, climatisations de salles serveurs
Évaluer les mesures de sécurité physique : clôtures, caméras, postes de garde
Planifier une reconnaissance physique en amont d’une visite sur site

Google Street View complète l’imagerie satellite avec des vues au niveau de la rue, révélant des détails invisibles depuis le ciel : type de serrures, marques des systèmes de vidéosurveillance, badges d’accès portés par des employés photographiés, panneaux d’affichage internes visibles par les fenêtres.

Métadonnées GPS dans les photos (EXIF)

Chaque photo numérique contient des métadonnées EXIF (Exchangeable Image File Format) qui peuvent inclure les coordonnées GPS du lieu de prise de vue, la date et l’heure exactes, le modèle d’appareil utilisé et parfois le nom du propriétaire de l’appareil.

Un employé qui publie une photo prise dans les locaux de l’entreprise peut involontairement géolocaliser précisément le bâtiment. Certaines plateformes (notamment Twitter et Facebook) suppriment les données EXIF lors du téléchargement, mais ce n’est pas systématique. Les photos partagées par email, sur des forums ou des sites personnels conservent généralement leurs métadonnées complètes.

Applications de géolocalisation et données de mobilité

Les applications de fitness (Strava, Garmin Connect), de transport (Uber, Waze) et de réseaux sociaux géolocalisés créent des traces de mobilité exploitables. En 2018, l’application Strava a involontairement révélé l’emplacement de bases militaires secrètes en publiant une carte mondiale des parcours de jogging de ses utilisateurs. Le même principe s’applique aux entreprises : les habitudes de déplacement des dirigeants, les trajets domicile-travail et les lieux de réunion deviennent observables.

Registres et bases de données publics : le cas français

La France dispose d’un écosystème particulièrement riche en données publiques ouvertes, ce qui constitue à la fois un atout démocratique et un vecteur d’exposition pour les entreprises.

Registres commerciaux et financiers

Societe.com et Pappers : chiffre d’affaires, résultats, dirigeants, bilans financiers, établissements secondaires et liens capitalistiques. Ces plateformes permettent de cartographier la structure juridique d’un groupe en quelques clics
Infogreffe : accès aux actes déposés au greffe (statuts, procès-verbaux d’assemblées, nominations), révélant la gouvernance et les décisions stratégiques
BODACC (Bulletin Officiel des Annonces Civiles et Commerciales) : publications légales incluant les créations, modifications, cessions et procédures collectives

Propriété intellectuelle et innovation

INPI : les dépôts de brevets et de marques révèlent les axes de recherche et développement d’une entreprise, parfois des mois avant toute annonce publique. Un concurrent ou un attaquant peut anticiper des lancements de produits en surveillant ces dépôts
Espacenet (Office européen des brevets) : couverture internationale des brevets, permettant de retracer l’activité innovante d’un groupe à l’échelle mondiale

Données ouvertes gouvernementales

Data.gouv.fr héberge des milliers de jeux de données publics : marchés publics attribués, subventions reçues, résultats d’inspections, données cadastrales. Pour un attaquant, les marchés publics sont particulièrement intéressants : ils révèlent les prestataires et technologies choisis par une organisation, les montants engagés et les cahiers des charges techniques.

Données techniques : DNS, Whois et Shodan

Le volet technique des registres publics constitue souvent la source la plus directement exploitable :

Whois : les enregistrements de noms de domaine exposent les contacts administratifs et techniques, les serveurs DNS utilisés et les dates de renouvellement. Même avec la protection RGPD qui masque certaines données, les enregistrements historiques (via des services comme WhoisHistory) conservent les anciennes informations
DNS (Domain Name System) : les enregistrements DNS publics (A, MX, TXT, CNAME) révèlent les adresses IP des serveurs, les fournisseurs de messagerie, les configurations de sécurité email (SPF, DKIM, DMARC) et les sous-domaines parfois oubliés
Shodan : ce moteur de recherche spécialisé indexe les équipements connectés à Internet (serveurs, caméras, systèmes industriels, imprimantes). Une requête sur l’adresse IP d’une entreprise peut révéler des services exposés, des versions logicielles vulnérables et des configurations défaillantes
Censys et Zoomeye : alternatives à Shodan, avec des capacités complémentaires d’analyse de certificats SSL et de détection de services

Dark web et fuites de données

Le dark web — l’ensemble des sites accessibles uniquement via des réseaux anonymes comme Tor — constitue une source OSINT spécifique, où circulent les données volées lors de cyberattaques.

Forums et marketplaces

Les marketplaces du dark web vendent des bases de données volées, des identifiants compromis, des numéros de carte bancaire et des accès VPN d’entreprise. Les forums spécialisés (comme ceux utilisés par des groupes tels que ShinyHunters ou LockBit) publient des échantillons de données pour prouver l’authenticité de leurs fuites avant de les monétiser.

Pour une entreprise, surveiller ces espaces permet d’identifier rapidement si des données internes circulent après une brèche, parfois avant même que l’intrusion n’ait été détectée en interne.

Bases de fuites et vérification d’exposition

Have I Been Pwned (HIBP) est un service gratuit qui permet de vérifier si une adresse email apparaît dans des fuites de données connues. En interrogeant le domaine de l’entreprise, un responsable sécurité peut identifier quels comptes professionnels ont été compromis et dans quelles brèches.

Les paste sites (Pastebin, Ghostbin, et leurs successeurs) servent de support de publication éphémère où des attaquants diffusent des extraits de bases de données, des listes d’identifiants ou des clés d’API interceptées. Une veille régulière sur ces plateformes fait partie de l’arsenal OSINT défensif.

Data brokers : le commerce légal des données

Au-delà du dark web, un écosystème légal de courtiers en données (data brokers) agrège et revend des informations personnelles et professionnelles. Ces entreprises compilent des données provenant de registres publics, de programmes de fidélité, de réseaux sociaux et d’achats en ligne. Les profils ainsi constitués peuvent inclure des informations exploitables en OSINT : adresses, numéros de téléphone, habitudes de consommation et affiliations professionnelles.

Ce que ces sources révèlent sur votre entreprise

En croisant ces différentes catégories de sources, un attaquant motivé peut reconstituer en moins de 30 minutes un profil complet d’une entreprise : organigramme, technologies utilisées, vulnérabilités techniques, identifiants compromis et vecteurs d’ingénierie sociale personnalisés. Le tout sans enfreindre la moindre loi.

La plupart des organisations sous-estiment drastiquement cette exposition. L’écart entre ce que les dirigeants pensent être public et ce qui l’est réellement constitue un angle mort stratégique. Dans le chapitre 4 consacré à l’OSINT défensif, nous détaillerons un scénario pas à pas de cette reconnaissance et la méthodologie pour auditer votre propre exposition.

Vous ne savez pas par où commencer pour cartographier votre exposition ? Contactez nos équipes pour un premier diagnostic.

Notions essentielles abordées

GEOINT (Geospatial Intelligence)

Renseignement dérivé de l'exploitation de données géospatiales : imagerie satellite, cartographie, métadonnées GPS et données de mobilité accessibles publiquement.

EXIF (Exchangeable Image File Format)

Métadonnées embarquées dans les fichiers photo incluant coordonnées GPS, date, modèle d'appareil et parfois identité du propriétaire. Vecteur d'exposition souvent ignoré.

Lire l'article →

Dark web

Ensemble de sites et services accessibles uniquement via des réseaux anonymes comme Tor. Espace où circulent des données volées, des identifiants compromis et des accès revendus.

Whois

Protocole et bases de données publiques contenant les informations d'enregistrement des noms de domaine : propriétaire, contacts administratifs, serveurs DNS et dates de renouvellement.

DNS (Domain Name System)

Système de résolution des noms de domaine en adresses IP. Ses enregistrements publics (A, MX, TXT, CNAME) révèlent l'infrastructure technique d'une organisation.

Data broker

Courtier en données qui agrège, enrichit et revend des informations personnelles et professionnelles collectées depuis des registres publics, réseaux sociaux et programmes commerciaux.

Lire l'article →

Wayback Machine

Service d'Internet Archive capturant périodiquement des snapshots de sites web depuis 1996. Permet d'accéder à des contenus supprimés ou modifiés, y compris des données sensibles retirées.

📚 Sources et références ▼

Sources OSINT : cartographie complète des données exploitables en source ouverte

Web ouvert et moteurs de recherche

Les moteurs généralistes : au-delà de Google

Pages en cache et archives web

Google Alerts et surveillance continue

SOCMINT : le renseignement via les réseaux sociaux

LinkedIn : la mine d’or de la reconnaissance professionnelle

Twitter/X : communications, opinions et erreurs

Facebook et Instagram : la vie personnelle comme vecteur d’attaque

Ce qu’un attaquant reconstitue depuis les réseaux sociaux

GEOINT : données géospatiales et imagerie

Imagerie satellite et cartographie

Métadonnées GPS dans les photos (EXIF)

Applications de géolocalisation et données de mobilité

Registres et bases de données publics : le cas français

Registres commerciaux et financiers

Propriété intellectuelle et innovation

Données ouvertes gouvernementales

Données techniques : DNS, Whois et Shodan

Dark web et fuites de données

Forums et marketplaces

Bases de fuites et vérification d’exposition

Data brokers : le commerce légal des données

Ce que ces sources révèlent sur votre entreprise

Notions essentielles abordées

GEOINT (Geospatial Intelligence)

EXIF (Exchangeable Image File Format)

Dark web

Whois

DNS (Domain Name System)

Data broker

Wayback Machine

Outils et plateformes de référence

Registres et données publics français

Cadre réglementaire et recommandations

Pour aller plus loin

OSINT : fondamentaux du renseignement en source ouverte pour les entreprises

Outils OSINT : méthodes et frameworks pour le renseignement en source ouverte

Les métadonnées de téléphone : ce qu'elles révèlent sur vous

Achat et revente de vos données personnelles : tout savoir sur les Courtiers en données (Data Broker)

Sources OSINT : cartographie complète des données exploitables en source ouverte

Web ouvert et moteurs de recherche

Les moteurs généralistes : au-delà de Google

Pages en cache et archives web

Google Alerts et surveillance continue

SOCMINT : le renseignement via les réseaux sociaux

LinkedIn : la mine d’or de la reconnaissance professionnelle

Twitter/X : communications, opinions et erreurs

Facebook et Instagram : la vie personnelle comme vecteur d’attaque

Ce qu’un attaquant reconstitue depuis les réseaux sociaux

GEOINT : données géospatiales et imagerie

Imagerie satellite et cartographie

Métadonnées GPS dans les photos (EXIF)

Applications de géolocalisation et données de mobilité

Registres et bases de données publics : le cas français

Registres commerciaux et financiers

Propriété intellectuelle et innovation

Données ouvertes gouvernementales

Données techniques : DNS, Whois et Shodan

Dark web et fuites de données

Forums et marketplaces

Bases de fuites et vérification d’exposition

Data brokers : le commerce légal des données

Ce que ces sources révèlent sur votre entreprise

Notions essentielles abordées

SOCMINT (Social Media Intelligence)

GEOINT (Geospatial Intelligence)

EXIF (Exchangeable Image File Format)

Dark web

Whois

DNS (Domain Name System)

Data broker

Wayback Machine

Outils et plateformes de référence

Registres et données publics français

Cadre réglementaire et recommandations

Pour aller plus loin

OSINT : fondamentaux du renseignement en source ouverte pour les entreprises

Outils OSINT : méthodes et frameworks pour le renseignement en source ouverte

Les métadonnées de téléphone : ce qu'elles révèlent sur vous

Achat et revente de vos données personnelles : tout savoir sur les Courtiers en données (Data Broker)