L’analyse de Virginie Brard,
Regional leader France et Benelux chez Fivetran.
L’usage de l’IA en
entreprise marque un tournant. La phase d’exploration – dopée par l’essor de
ChatGPT et de l’IA générative – cède la place à celle de la mise en œuvre. Les
entreprises doivent désormais démontrer concrètement la mise en application de leurs
ambitions.
Elles réalisent aussi
qu’adopter l’IA impose d’adapter les systèmes existants. Malgré une production
de données en forte hausse, leurs infrastructures restent souvent mal préparées
pour répondre à cette pression. Résultat : des informations essentielles restent
enfermées dans des silos, tandis qu’ailleurs, les données prolifèrent sans
contrôle.
Ces inefficacités
freinent non seulement la qualité des résultats produits par l’IA, mais créent
aussi des angles morts en matière de sécurité, et peuvent entraîner des pertes
financières importantes. En moyenne, les entreprises françaises perdent 8% de
leur chiffre d’affaires annuel mondial à cause de modèles d’IA sous-performants
– soit environ 406 millions de dollars.
Rechercher fiabilité et
maîtrise
Pour avoir confiance
dans les résultats produits par l’IA, les entreprises doivent d’abord maîtriser
totalement la manière dont les données alimentent les modèles et les outils de l’IA
générative. Cela passe par des jeux de données complets et fiables, ainsi que
par des processus transparents et traçables.
Une fois des données
personnelles injectées dans des outils tiers comme ChatGPT, il devient souvent
impossible de les contrôler. Ces données peuvent enrichir la base de
connaissances du modèle, rendant leur suppression ou leur modification
difficile au regard des réglementations.
Pour éviter cela, de
plus en plus d’entreprises déploient leurs outils d’IA générative en interne,
sur leurs propres données et systèmes. Cette approche, appelée « génération
augmentée de récupération » (Retrieval-Augmented Generation – RAG), consiste à superposer
des données propriétaires fiables à de grands modèles de langage (LLM). Les
données internes restent ainsi privées. Cela renforce la sécurité sans besoin
de réentraîner les modèles sur des informations sensibles, tout en évitant de
développer des modèles sur mesure, très gourmands en puissance de calcul.
Des obstacles
techniques
Le potentiel du RAG
pousse les entreprises à exploiter davantage de données – qu’elles soient
structurées, semi-structurées ou non structurées – issues d'applications et de
bases diverses. Mais les pipelines de données doivent être régulièrement mis à
jour et surveillés. Les équipes sont donc souvent sous pression et doivent
faire des arbitrages pour prioriser les analyses à forte valeur.
Les pipelines sur
mesure sont difficiles à gérer dans le temps. Les fournisseurs SaaS modifient
fréquemment leurs schémas ou API, forçant les ingénieurs de données à ajuster
en permanence les pipelines. Sans mise à jour, les pipelines tombent en panne,
mobilisant encore plus de ressources techniques.
Ces obstacles
contraignent aussi les data scientists à passer deux tiers de leur temps à
préparer les données au lieu de développer des modèles d’IA. Ce gaspillage de
ressources, associé à une mauvaise valorisation des compétences et à des
risques métiers, rend la question critique pour les DSI.
Faire de la sécurité
une priorité
Centraliser les données
de manière fiable, rapide et sécurisée est déjà un défi. Dans les secteurs
réglementés comme la finance ou la santé, il devient encore plus complexe. Ces
entreprises doivent redoubler de prudence avec les données sensibles, en particulier
lorsqu’il s’agit de les transférer du système local vers le cloud. Selon le
rapport O’Reilly sur l’adoption du cloud, 55% des entreprises utilisent encore
des systèmes on-premise, et seulement 5% envisagent de repasser du cloud vers
l’infrastructure locale.
Le caractère sensible
de certaines données impose aussi de limiter qui peut y accéder et où elles
sont traitées. Pour répondre à ces contraintes, les entreprises optent de plus
en plus pour une approche hybride de gestion des données.
Avec un déploiement
hybride, les traitements restent localisés dans l’environnement sécurisé de
l’entreprise, tandis qu’un partenaire spécialisé gère et met à jour les
pipelines. Cela permet de piloter à la fois les flux cloud et on-premise depuis
une interface unifiée, assurant conformité et performance. Contrairement aux
pipelines faits maison, souvent peu transparents, les modèles hybrides offrent
un cadre sécurisé et évolutif, libérant les équipes pour des tâches à plus
forte valeur ajoutée.
Une stratégie de
données robuste et durable
L’IA peut améliorer
considérablement les processus. La demande croît dans de nombreux secteurs,
notamment la santé, la finance et les services publics. D’après Gartner, d’ici
2026,
8 entreprises sur 10
utiliseront des applications basées sur l’IA générative.
Pour l’instant, la
gestion des données reste un défi central. La « maturité données » devient une
priorité pour les DSI. Pour progresser dans leurs feuilles de route IA, les
entreprises doivent d’abord poser des bases solides : des processus de données
fiables, transparents et sécurisés. C’est la condition pour limiter les risques
et construire une croissance durable.


