Les données dans l'IA : pourquoi des données de mauvaise qualité donnent des résultats de mauvaise qualité

Le livre de recettes que votre mère n'a jamais terminé

Imaginez la cuisine de votre mère en 1990. Elle est célèbre dans le quartier pour sa tarte aux pommes. Tout le monde veut la recette. Elle décide donc de l'écrire.

Mais voici le problème. En quarante ans de pâtisserie, elle a fait ce gâteau des centaines de fois. Parfois, elle utilisait du beurre, parfois de la margarine (selon ce qui était le moins cher cette semaine-là). Parfois cette pomme, puis cette autre, parfois des pommes ordinaires. Parfois, elle cuisait à 150 degrés, parfois à 250 (parce que le four était capricieux). Parfois, elle ajoutait un œuf supplémentaire quand ils étaient petits.

La flexibilité de l'expérience

Chaque gâteau était délicieux. Elle savait instinctivement comment s'adapter. Un peu plus de farine quand il fait humide. Un peu moins de sucre quand la pomme est particulièrement acide. Des années d'expérience l'ont rendue flexible.

Maintenant, imaginez qu'elle écrive la recette en se basant uniquement sur les cinq dernières fois où elle l'a faite. Toutes en été. Toutes avec de la margarine. Toutes avec ce lot de pommes extra-acides qu'elle a achetées en solde. Toutes avec le four qui chauffait fort.

Le désastre des exemples limités

Quelqu'un suit cette recette en hiver, avec du beurre, avec des pommes douces, dans un four normal. Un désastre. Sec, friable, beaucoup trop sucré. La recette ne fonctionne pas parce que les exemples sur lesquels elle était basée ne représentaient pas toute la gamme des situations.

C'est exactement comme ça que l'IA apprend à partir des données. La "recette" (l'IA) n'est bonne que si les exemples dont elle a appris le sont. Des exemples limités créent une IA limitée. Des exemples biaisés créent une IA biaisée. De mauvais exemples créent une IA qui ne fonctionne tout simplement pas.

Il ne s'agit pas de technologie compliquée. Il s'agit d'une vérité simple : on ne peut enseigner que ce que l'on montre. Et si ce que vous montrez est incomplet, biaisé ou tout simplement faux, c'est exactement ce qui sera appris.

Pourquoi personne ne parle de la partie ennuyeuse (mais devrait le faire)

Voici ce qui se passe à chaque conférence sur l'IA, dans chaque article technique, dans chaque argumentaire marketing :

Ce qui retient toute l'attention

Beaucoup d'enthousiasme pour les algorithmes. Les mathématiques astucieuses. Les architectures sophistiquées. Les réseaux de neurones avec des milliards de paramètres. Les techniques d'entraînement aux noms impressionnants. Les stratégies d'optimisation qui ressemblent à de la magie.

Ce qui est ignoré

Presque rien sur les données. D'où elles viennent. Comment elles ont été collectées. Si elles sont de bonne qualité. Ce qui manque. Quels biais elles contiennent.

Pourquoi ? Parce que les algorithmes sont sexy. Les données sont ennuyeuses. Les algorithmes semblent intelligents et sophistiqués. Les données ressemblent à de la paperasse, des classeurs, des feuilles de calcul. Pas excitant du tout.

Mais voici la vérité qui dérange que chaque chercheur honnête en IA vous dira en privé :

La vérité qui dérange

Un algorithme brillant entraîné sur des données de mauvaise qualité produit des résultats de mauvaise qualité. Un algorithme médiocre entraîné sur d'excellentes données produit d'excellents résultats. À chaque fois. Sans exception.

Pensez-y comme si vous étudiiez pour un examen

L'algorithme est comme un étudiant qui étudie pour un examen. Donnez à cet étudiant le mauvais manuel, et peu importe son intelligence ou ses efforts, il échouera à l'examen parce qu'il a appris à partir de mauvaises informations. Donnez à un étudiant moyen le bon manuel, de nombreux exercices pratiques et de bons exemples ? Il s'en sortira bien. Peut-être pas parfaitement, mais de manière solidement utile.

C'est la réalité de l'IA. La qualité des données est plus importante que la sophistication de l'algorithme. Bien plus. Et pourtant, presque personne ne veut en parler.

Imaginez que vous appreniez à quelqu'un à identifier les champignons vénéneux en utilisant uniquement des photographies d'une seule forêt, prises en été, toutes en plein soleil. Il pourrait très bien s'en sortir dans cette forêt exacte, en été, par temps ensoleillé. Mais mettez-le dans une autre forêt en automne par temps nuageux ? Il devine. L'entraînement était trop limité. Même problème avec l'IA : des données limitées créent des systèmes limités et peu fiables. Les données définissent les limites de ce que l'IA peut éventuellement apprendre.

Ce que "Apprendre à partir des données" signifie réellement

Quand quelqu'un dit "l'IA apprend à partir des données", qu'est-ce que cela signifie vraiment ? Utilisons un exemple que tout le monde peut comprendre.

Apprendre à votre petit-fils à reconnaître les oiseaux

Imaginez que vous appreniez à votre petit-fils de dix ans à reconnaître différents types d'oiseaux. Vous l'emmenez au parc avec un guide ornithologique. Chaque fois que vous voyez un oiseau, vous le cherchez ensemble.

"Tu vois celui-là ? Plumes bleues, poitrine rouge, à peu près de cette taille. C'est un merle bleu." Il le regarde attentivement. Il observe les couleurs, la taille, la forme. La semaine suivante, un autre oiseau. "Celui-là ? Tout noir, plus grand, un cri rauque. C'est une corneille." Il observe. Il mémorise.

Vous faites cela cinquante fois. Différents oiseaux. Différentes situations. Différents éclairages. Parfois en vol, parfois posés. Après cinquante oiseaux, il commence à deviner correctement. "Grand-père, est-ce que c'est un rouge-gorge ?" Et il a raison !

Il a appris à partir d'exemples. Beaucoup d'exemples. Chacun lui a appris quelque chose sur les motifs : ce qui fait d'un rouge-gorge un rouge-gorge, ce qui fait d'une corneille une corneille.

L'IA apprend exactement de la même manière

Montrez-lui des exemples. Beaucoup d'exemples. Pour chaque exemple, donnez-lui la bonne réponse. "Cet e-mail est un spam." "Cette photo contient un chat." "Cet avis est positif." L'IA recherche des motifs qui relient les exemples aux réponses.

Mais c'est là que ça se complique. Que se passe-t-il si vous ne montrez à votre petit-fils que des oiseaux en été ? Il pourrait penser que les rouges-gorges ont toujours une poitrine rouge vif (elle est plus terne en hiver). Et si vous ne lui montrez que des oiseaux dans votre jardin ? Il pourrait ne pas reconnaître ces mêmes oiseaux dans un environnement différent.

Apprendre les mauvais motifs

Et si vous identifiez mal quelques oiseaux par accident ? "C'est un moineau" alors que c'est en fait un pinson. Il apprend le mauvais motif. Maintenant, il identifiera mal les pinsons pour toujours, à moins que quelqu'un ne le corrige.

La qualité et la variété des exemples déterminent ce qu'il apprend. Il en va de même pour l'IA. Les données sont la leçon. Si la leçon est incomplète, biaisée ou fausse, l'apprentissage sera incomplet, biaisé ou faux.

De combien de données avez-vous réellement besoin ?

Tout le monde pose cette question. La réponse frustre les gens : ça dépend.

Pensez à l'enseignement de compétences dans la vie réelle. Combien de fois une personne a-t-elle besoin de s'entraîner avant d'apprendre ?

Apprendre à un enfant à faire ses lacets

Peut-être une vingtaine de séances d'entraînement. C'est un schéma simple et répétable. Les mêmes étapes à chaque fois. Peu de variations. Vingt exemples suffisent.

Apprendre à quelqu'un à conduire

Des centaines d'heures. Pourquoi ? Parce que la conduite implique une variation infinie. Rues de la ville, autoroutes, pluie, neige, travaux, conducteurs agressifs, piétons, cyclistes, animaux qui traversent. Chaque situation est légèrement différente. Vous avez besoin d'être exposé à toutes ces variations pour devenir un conducteur compétent.

L'IA, c'est pareil. Les tâches simples nécessitent moins d'exemples. Les tâches complexes en nécessitent des quantités massives.

Reconnaissance de motifs simples (est-ce un spam ?)

Peut-être 10 000 exemples. Le spam a des motifs reconnaissables. Une fois que vous avez vu assez d'exemples de "ACHETEZ MAINTENANT !!!" et "Vous avez gagné un prix !", vous comprenez l'idée.

Complexité modérée (reconnaître des visages)

Des dizaines de milliers à des centaines de milliers. Les visages varient énormément. Différents angles, éclairages, expressions, âges. Il faut beaucoup de variété pour capturer tout cela.

Complexité élevée (identifier n'importe quel objet sur des photos)

Des millions d'images. Des milliers de types d'objets. Chaque objet dans des contextes, angles, éclairages différents. Des voitures dans la rue, des voitures dans des showrooms, des voitures accidentées. Des arbres dans les forêts, des arbres dans les jardins, des arbres dans les peintures. Une grande variété nécessite des données massives.

Complexité extrême (comprendre le langage)

Des milliards de mots. Le langage a une variété infinie. Chaque sujet, chaque style, chaque contexte. Rapports formels, discussions informelles, poésie, instructions, blagues, sarcasme. Pour gérer tout cela, il faut être exposé à d'énormes quantités de texte.

Mais voici le point essentiel : la quantité seule ne suffit pas. Vous préféreriez avoir 100 000 exemples excellents, diversifiés et correctement étiquetés plutôt que 10 millions d'exemples médiocres, répétitifs et mal étiquetés. C'est comme apprendre à cuisiner. Préféreriez-vous vous entraîner à préparer 100 plats différents avec de bonnes instructions, ou faire les mêmes pâtes médiocres 10 000 fois avec des instructions peu claires ? La variété et la qualité de la pratique comptent plus que le nombre brut de répétitions.

Les cinq ingrédients de données de qualité

Qu'est-ce qui rend les données bonnes ou mauvaises ? Cinq facteurs clés. Analysons-les avec des exemples que tout le monde peut comprendre.

1 Étiquettes précises (obtenir les bonnes réponses)
Imaginez que vous appreniez les animaux à un enfant en utilisant un livre d'images mal étiqueté. "Ceci est un chien" à côté de la photo d'un chat. "Ceci est une vache" à côté d'un cheval. L'enfant apprend tout de travers. Il identifiera mal les animaux pour toujours.

L'IA a le même problème. Si vous l'entraînez à reconnaître les chats, chaque photo étiquetée "chat" doit réellement être un chat. Même 5 % d'erreurs causent de sérieux problèmes. 10 % d'erreurs ? L'IA apprend n'importe quoi. Elle ne peut pas distinguer le signal du bruit lorsque les réponses ne sont pas fiables.
2 Représentativité (correspondre à la vie réelle)
Votre petit-fils a appris à identifier les oiseaux dans votre jardin de banlieue. Il est excellent pour reconnaître les cardinaux, les rouges-gorges, les geais bleus. Puis vous l'emmenez à la plage. Mouettes, pélicans, bécasseaux. Il est perdu. Rien ne ressemble aux oiseaux qu'il a appris à connaître.

Les données d'entraînement doivent représenter l'endroit où l'IA sera réellement utilisée. Entraînez un système de reconnaissance faciale sur des photos de studio bien éclairées ? Il échoue dans l'éclairage tamisé d'une boîte de nuit. Entraînez un assistant vocal sur une parole claire et sans bruit ? Il a du mal avec les accents et le bruit de fond. La distribution des données doit correspondre à la distribution du monde réel.
3 Diversité suffisante (couvrir toutes les situations)
Imaginez apprendre à conduire, mais seulement par temps parfait sur des routes droites avec peu de circulation. Vous seriez un conducteur terrible n'importe où ailleurs. Les virages ? Panique. La pluie ? Désastre. L'heure de pointe ? Submergé.

L'IA a besoin de diversité dans ses données d'entraînement. Des photos en plein soleil et à l'ombre. Des écrits formels et des textes informels. Des voix jeunes et des voix âgées. Des cas courants et des cas limites rares. Sans diversité, l'IA sur-apprend. Elle mémorise des exemples spécifiques au lieu d'apprendre des motifs généraux. Montrez-lui uniquement des golden retrievers, et elle aura du mal avec les caniches. Montrez-lui des chats de toutes les couleurs, tailles et positions, et elle reconnaîtra les chats de manière fiable.
4 Pertinence et récence (rester à jour)
Imaginez enseigner à quelqu'un la mode des années 1960 et s'attendre à ce qu'il identifie les tendances actuelles. Pantalons à pattes d'éléphant, coiffures choucroute, bottes go-go. Puis montrez-lui la mode moderne. Il est confus. Tout a changé.

Les données vieillissent. Le langage évolue ("cool" ne signifie pas la même chose aujourd'hui qu'en 1960). Les tactiques de spam changent (les astuces d'hier ne fonctionnent plus). Les tendances de la mode évoluent. La technologie se met à jour. Si vos données d'entraînement datent d'il y a cinq ans, les motifs ont changé. Les données actuelles capturent les motifs actuels.
5 Absence de biais (représentation équitable)
C'est le plus important. Le plus dangereux. Celui qui cause un préjudice réel dans le monde réel. Nous approfondirons ce sujet sous peu, car le biais dans les données n'est pas seulement un problème technique. C'est un problème humain aux conséquences graves. Si vos données reflètent une discrimination historique, votre IA apprend à discriminer. Si vos données surreprésentent certains groupes et en sous-représentent d'autres, votre IA fonctionne mieux pour certaines personnes que pour d'autres. Données de mauvaise qualité, résultats de mauvaise qualité. Biais à l'entrée, biais à la sortie.

Pensez aux données comme à des ingrédients pour cuisiner. Vous pouvez avoir un chef étoilé Michelin (algorithme sophistiqué), mais si vous lui donnez des légumes pourris, du pain rassis et du lait avarié (mauvaises données), le repas sera immangeable. Pendant ce temps, un cuisinier amateur (algorithme simple) avec des ingrédients frais et de qualité préparera quelque chose de délicieux. Les ingrédients comptent plus que les références du chef. En IA, les données sont les ingrédients.

La réalité peu glorieuse (là où se trouve vraiment le travail)

Voici ce que personne ne vous dit lorsqu'ils vendent des solutions d'IA ou enseignent des cours sur l'IA :

La plupart du travail ne consiste pas à construire l'IA. Il consiste à préparer les données.

Les scientifiques des données passent environ 80 % de leur temps à la préparation des données. Seulement 20 % à la construction et à l'entraînement réels des modèles. Ce ratio vous dit tout sur l'endroit où se situe le véritable défi.

En quoi consiste la préparation des données ? Quatre tâches massives, fastidieuses et essentielles :

Collecte de données

Rassembler des exemples pertinents d'où qu'ils se trouvent. Extraire des sites web, accéder à des bases de données, enregistrer des capteurs, agréger plusieurs sources. Chronophage. Souvent coûteux. Fréquemment frustrant lorsque les sources ne coopèrent pas ou que les données n'existent pas.

Nettoyage des données

Supprimer les doublons. Corriger les erreurs. Gérer les valeurs manquantes. Standardiser les formats. Filtrer le bruit. C'est comme trier des décennies de paperasse dans un classeur en désordre. Cela seul peut prendre des semaines ou des mois pour de grands ensembles de données.

Étiquetage des données

Marquer manuellement les exemples avec les bonnes réponses. "Cette image est un chat." "Cet avis est positif." "Cette transaction est frauduleuse." Pour des millions d'exemples. Incroyablement fastidieux. Souvent externalisé à des travailleurs peu rémunérés qui font des erreurs par ennui et fatigue.

Validation des données

Vérifier que les étiquettes sont correctes. Que la diversité est suffisante. Que les biais sont identifiés et traités. Que l'ensemble de données représente vraiment la réalité. Contrôle qualité pour des millions d'exemples. Épuisant mais absolument essentiel.

Rien de tout cela n'est glamour. Rien de tout cela ne fait la une des journaux. Rien de tout cela n'impressionne les gens lors des fêtes. C'est un travail ingrat. Mais c'est là que les projets d'IA réussissent ou échouent.

L'algorithme est relativement facile. Il existe de nombreux bons algorithmes. La plupart sont publiés ouvertement. Vous pouvez les télécharger, les utiliser, les modifier. Les données sont difficiles. Les collecter, les nettoyer, les étiqueter, les valider. C'est là que se situe le véritable effort. C'est là que la plupart des projets échouent. C'est ce qui sépare l'IA qui fonctionne du vaporware. Les entreprises avec de meilleures données battent les entreprises avec de meilleurs algorithmes. À chaque fois. Les données sont le fossé. L'avantage défendable. Le véritable avantage concurrentiel.

Le problème du biais (le défaut le plus dangereux de l'IA)

Nous arrivons maintenant à la partie vraiment inconfortable. La partie qui cause un préjudice réel à de vraies personnes. La partie qui transforme l'IA de "légèrement peu fiable" à "activement dangereuse".

L'IA n'apprend pas seulement des motifs à partir des données. Elle les amplifie.

Si vos données présentent des biais (et presque toutes les données du monde réel en ont), l'IA ne les filtre pas. Elle les apprend. Les encode. Les applique systématiquement. Les aggrave.

Laissez-moi vous expliquer avec une histoire que tout le monde peut comprendre.

Apprendre à partir de données historiques biaisées

Imaginez que vous expliquiez à votre petit-fils qui est embauché dans votre entreprise. Vous lui montrez les dossiers des embauches des vingt dernières années. Département d'ingénierie : principalement des hommes. Postes de secrétariat : principalement des femmes. Direction : principalement des Blancs. Main-d'œuvre : plus diversifiée.

Vous ne lui dites jamais explicitement "les hommes devraient être ingénieurs" ou "les femmes devraient être secrétaires". Vous lui montrez simplement les données historiques.

Maintenant, il est chargé de trier les nouvelles candidatures. Que fait-il ? Il a appris le motif à partir des données. Une femme candidate en ingénierie ? Cela semble inhabituel, pourrait ne pas convenir. Un homme postulant pour un poste de secrétaire ? Ne correspond pas au motif. Il discrimine. Non pas parce que c'est une mauvaise personne. Mais parce qu'il a appris à partir de données historiques biaisées et a appliqué ces motifs comme s'ils étaient corrects.

C'est exactement ce qui se passe avec l'IA. Les données historiques reflètent la discrimination historique. L'IA apprend cette discrimination comme s'il s'agissait d'un motif valide à suivre. Puis elle l'applique systématiquement à des millions de décisions.

Voici des exemples réels de ce phénomène :

⚠️ L'IA de recrutement d'Amazon

Amazon a entraîné une IA à trier les CV en utilisant dix ans de données historiques de recrutement. Les données montraient qu'ils avaient principalement embauché des hommes pour les postes techniques. L'IA a appris à déclasser les CV des femmes. Elle repérait des indices comme "club d'échecs féminin" sur les CV et les pénalisait. Amazon a dû abandonner le système. L'algorithme fonctionnait perfectly. Le problème venait des données.

⚠️ Algorithmes de santé

Plusieurs systèmes d'IA dans le domaine de la santé ont montré un biais racial. Ils donnaient la priorité aux patients blancs par rapport aux patients noirs présentant des symptômes identiques. Pourquoi ? Les données historiques sur les soins de santé reflétaient les disparités historiques en matière de soins. Les patients noirs recevaient historiquement moins de traitements. L'IA a appris ce motif et l'a appliqué comme si moins de soins était médicalement approprié, et non la preuve d'une discrimination.

⚠️ Systèmes de reconnaissance faciale

La plupart des ensembles de données de reconnaissance faciale surreprésentent les hommes blancs. L'IA fonctionne mieux sur les hommes blancs. Nettement moins bien sur les femmes. Encore moins bien sur les personnes à la peau plus foncée. Non pas parce que l'algorithme est raciste, mais parce que les données d'entraînement n'étaient pas équilibrées. L'IA n'a littéralement pas vu assez de visages diversifiés pour apprendre à les reconnaître de manière fiable.

⚠️ Modèles de notation de crédit

La notation de crédit par IA a appris à partir de données historiques de prêt qui reflétaient des décennies de pratiques de prêt discriminatoires. Le "Redlining". Les prêts prédateurs dans les quartiers minoritaires. L'IA a encodé ces motifs comme de "bonnes décisions de prêt" et les a perpétués. Une discrimination légale, automatisée et mise à l'échelle.

Dans chaque cas, l'algorithme a fonctionné correctement. Il a appris les motifs dans les données. Les données étaient biaisées. L'IA est donc devenue biaisée. Données de mauvaise qualité, résultats de mauvaise qualité. Discrimination à l'entrée, discrimination à la sortie.

Ce n'est pas un problème technique mineur. C'est un défi fondamental. On ne peut pas construire une IA équitable à partir de données inéquitables. De meilleurs algorithmes n'aident pas. Seules de meilleures données aident. Plus diversifiées. Plus représentatives. Délibérément débiaisées.

Le plus effrayant ? Une IA biaisée semble objective. "L'ordinateur l'a dit" semble plus légitime que "une personne a décidé". Mais l'ordinateur a appris d'humains biaisés prenant des décisions biaisées. Tout ce que fait l'IA, c'est automatiser et mettre à l'échelle ce biais, le faisant paraître scientifique et neutre alors qu'il ne l'est ni l'un ni l'autre. Le biais des données est là où l'IA passe d'un outil utile à un instrument de préjudice.

Quelles questions poser sur n'importe quel système d'IA

Que vous construisiez une IA, achetiez une IA ou utilisiez simplement l'IA dans votre vie quotidienne, voici les questions que vous devriez poser. Les réponses vous diront si vous pouvez lui faire confiance.

? D'où proviennent les données d'entraînement ?
Les sources spécifiques sont importantes. Données de l'internet public ? Ensembles de données organisés ? Dossiers d'entreprise ? Chacun a des biais et des limitations différents. S'ils ne veulent pas vous le dire, c'est un énorme signal d'alarme.
? Quelle quantité de données a été utilisée ? Comment ont-elles été étiquetées ?
Les chiffres comptent. "Des milliers" contre "des millions" fait une différence. Qui les a étiquetées ? Des experts ou des travailleurs aléatoires peu rémunérés ? Comment la qualité a-t-elle été contrôlée ? Ces détails déterminent la fiabilité.
? Les données d'entraînement correspondent-elles à votre cas d'utilisation ?
Une IA entraînée sur des documents commerciaux formels aura du mal avec des messages texte informels. Une entraînée sur des photos ensoleillées de Californie pourrait échouer sous la pluie de Seattle. La correspondance est importante. Une inadéquation signifie des échecs.
? Quels groupes sont représentés dans les données ?
Tous les âges ? Tous les sexes ? Toutes les ethnies ? Toutes les langues ? Ou principalement une seule démographie ? Des données déséquilibrées créent des systèmes qui fonctionnent très bien pour certaines personnes et terriblement pour d'autres.
? Quels biais connus existent ? Comment ont-ils été traités ?
Chaque ensemble de données a des biais. Les développeurs honnêtes les reconnaissent et expliquent les efforts d'atténuation. Quiconque prétend n'avoir aucun biais ment ou est dangereusement inconscient.
? Quelles situations cette IA gérera-t-elle mal ?
Chaque IA a des limites basées sur ses données d'entraînement. Ce qu'elle n'a pas vu, elle ne peut pas le gérer. Si les données étaient biaisées, elle sera biaisée. Si les données étaient incomplètes, elle échouera. Aucune IA ne transcende ses données d'entraînement. Les données définissent le plafond.

Si quelqu'un qui vous vend de l'IA ne peut pas répondre à ces questions, partez. Soit il ne sait pas (incompétent), soit il ne vous le dira pas (cache des problèmes). Dans tous les cas, ne lui faites pas confiance.

L'avenir des données dans l'IA

Les défis liés aux données ne vont pas disparaître. Mais les approches évoluent. Voici ce qui change :

Données synthétiques

Créer des exemples d'entraînement artificiels par simulation. Utile pour les scénarios rares, les situations dangereuses (comme les accidents de voiture pour les voitures autonomes) et les domaines sensibles à la vie privée. Ce n'est pas un remplacement des données réelles, mais un complément précieux qui comble les lacunes.

Augmentation des données

Créer des variations d'exemples existants. Faire pivoter les images, les retourner, ajuster l'éclairage. Reformuler les phrases. Ajouter du bruit de fond à l'audio. Multiplie artificiellement votre ensemble de données, augmentant la diversité sans collecter de nouveaux exemples à partir de zéro.

Apprentissage à partir de peu d'exemples (Few-Shot Learning)

Techniques pour apprendre à partir de moins d'exemples en transférant les connaissances de tâches précédentes. C'est comme une fois que vous avez appris plusieurs langues, en apprendre une nouvelle devient plus facile. Réduit les besoins en données pour les nouvelles tâches en tirant parti des connaissances existantes.

Méthodes de préservation de la vie privée

Apprendre à partir de données sans les voir directement. Apprentissage fédéré (l'IA s'entraîne sur votre téléphone sans envoyer de données aux serveurs). Confidentialité différentielle (ajout de bruit prudent pour que les enregistrements individuels ne puissent pas être identifiés). Permet d'apprendre à partir de données médicales, financières et personnelles sensibles.

Apprentissage actif

L'IA ne demande des étiquettes que pour les exemples dont elle n'est pas sûre. Au lieu d'étiqueter un million d'exemples aléatoires, étiquetez les mille exemples où l'IA est la plus confuse. Concentre l'effort humain là où il est le plus important, réduisant considérablement les coûts d'étiquetage.

Ces techniques aident, mais elles n'éliminent pas la vérité fondamentale : les données de qualité sont irremplaçables. Vous pouvez réduire la quantité dont vous avez besoin. Vous pouvez générer des suppléments. Vous pouvez apprendre plus efficacement. Mais vous ne pouvez pas échapper à l'équation : données de mauvaise qualité, résultats de mauvaise qualité.

L'essentiel (ce que vous devez vraiment savoir)

Résumons les vérités essentielles sur les données dans l'IA :

Les données comptent plus que les algorithmes. Cela a toujours été le cas. Et le sera toujours. L'IA la plus sophistiquée et la plus perfectionnée au monde, entraînée sur des données de mauvaise qualité, produit des résultats de mauvaise qualité. Une IA simple entraînée sur des données de qualité produit des résultats de qualité. À chaque fois. Sans exception.

La qualité l'emporte sur la quantité, mais vous avez besoin des deux. Il vaut mieux avoir 100 000 exemples diversifiés, correctement étiquetés et représentatifs que 10 millions d'exemples répétitifs, mal étiquetés et biaisés. Mais idéalement ? Vous voulez des millions d'exemples de haute qualité et diversifiés. À la fois la quantité et la qualité.

Le biais dans les données devient un biais dans l'IA. La discrimination historique devient une discrimination algorithmique. Une représentation déséquilibrée devient une performance peu fiable pour les groupes sous-représentés. L'IA ne filtre pas les biais. Elle les apprend, les encode, les amplifie et les applique systématiquement.

La plupart du travail en IA est la préparation des données, pas la construction d'algorithmes. 80 % de collecte, nettoyage, étiquetage, validation des données. 20 % de modélisation. Ce ratio dit tout. L'algorithme est la partie facile. Les données sont la partie difficile. Et la partie importante.

Chaque IA a des limites définies par ses données d'entraînement. Ce qu'elle n'a pas vu, elle ne peut pas le gérer. Là où les données étaient biaisées, elle sera biaisée. Là où les données étaient incomplètes, elle échouera. Aucune IA ne transcende ses données d'entraînement. Les données définissent le plafond.

Souvenez-vous du livre de recettes de votre mère du début de cet article ? La recette n'est bonne que si les expériences sur lesquelles elle est basée le sont. Des expériences limitées créent des recettes limitées. Des expériences biaisées créent des recettes biaisées. Des informations erronées créent des recettes qui ne fonctionnent pas.

Il en va de même pour l'IA. Le système n'est bon que si les données dont il a appris le sont. Des données limitées créent une IA limitée. Des données biaisées créent une IA biaisée. De mauvaises données créent une IA qui ne fonctionne tout simplement pas. L'adage "données de mauvaise qualité, résultats de mauvaise qualité" n'est pas juste une phrase accrocheuse. C'est la loi fondamentale de l'IA. Si les données sont bonnes, même des algorithmes simples peuvent apprendre des motifs utiles. Si les données sont mauvaises, aucune sophistication algorithmique ne peut vous sauver.

Maintenant, vous savez pourquoi les données sont tout dans l'IA. Et pourquoi quiconque vous dit le contraire essaie de vous vendre quelque chose ou ne comprend pas comment cette technologie fonctionne réellement.

Chez Dweve, nous sommes transparents sur les exigences en matière de données. Nos systèmes basés sur des contraintes ont besoin d'exemples de qualité et représentatifs pour découvrir des relations logiques valides. Pas de raccourcis. Pas de magie. Juste une ingénierie honnête qui reconnaît une vérité simple : on ne peut pas construire une IA fiable à partir de données non fiables. Parce que des données de mauvaise qualité donnent vraiment des résultats de mauvaise qualité, à chaque fois.

Les données dans l'IA : pourquoi des données de mauvaise qualité donnent des résultats de mauvaise qualité

Le livre de recettes que votre mère n'a jamais terminé

Pourquoi personne ne parle de la partie ennuyeuse (mais devrait le faire)

Ce que "Apprendre à partir des données" signifie réellement

De combien de données avez-vous réellement besoin ?

Les cinq ingrédients de données de qualité

La réalité peu glorieuse (là où se trouve vraiment le travail)

Le problème du biais (le défaut le plus dangereux de l'IA)

Quelles questions poser sur n'importe quel système d'IA

L'avenir des données dans l'IA

L'essentiel (ce que vous devez vraiment savoir)

Étiquettes

À propos de l’auteur

Marc Filipan

Articles connexes

Réseaux de neurones : ce qu'ils sont, comment ils fonctionnent et pourquoi leur nom est trompeur

Le machine learning expliqué : comment l'IA apprend réellement (sans le baratin)

Comment les ordinateurs prennent des décisions : la vérité binaire que personne ne vous dit

Suivez l’actualité Dweve