Comment détecter les objets plus efficacement avec YOLO ?

Introduction : la détection d'objets, révolution au cœur de la vision par ordinateur

La détection d'objets ne se limite pas à une prouesse technologique ; elle est la pierre angulaire de la vision par ordinateur moderne. En fusionnant localisation et classification, elle permet d'identifier et de situer avec précision des éléments au sein d'images ou de flux vidéo. Cette capacité est devenue indispensable dans une pluralité de secteurs : sécurité publique, automatisation industrielle, diagnostic médical, robotique avancée, et même pour nos voitures autonomes qui sillonnent nos routes avec une assurance croissante. Imaginez des diagnostics médicaux accélérés, des chaînes de production intelligentes et une sécurité renforcée. Tout cela, et bien plus, est rendu possible par la détection d'objets. Dans cet article, nous allons explorer en profondeur l'un des algorithmes les plus emblématiques de ce domaine : YOLO.

Image montrant une prédiction avec le modèle YOLO sur une photo de Zinedine Zidane et Carlo Ancelotti lors de la finale de la Ligue des Champions. Les deux personnes sont encadrées et étiquetées avec des scores de confiance, indiquant "person 0.88" pour Zinedine Zidane et "person 0.85" pour Carlo Ancelotti. La cravate de Zinedine Zidane est également détectée et étiquetée avec un score de confiance de "tie 0.61".

YOLO (You Only Look Once) : l’innovation au service de la performance

YOLO, acronyme de "You Only Look Once", est un algorithme de détection d'objets qui a marqué une rupture. Sa particularité ? Analyser les images en une unique passe, ce qui réduit drastiquement le temps de traitement sans sacrifier les performances. Cette combinaison d'efficacité et de justesse a propulsé YOLO au rang des modèles de référence en vision par ordinateur. Avec une évolution constante portée par une communauté active et des acteurs tel que l’entreprise Ultralytics, YOLO continue de repousser les limites, comme en témoignent les recherches autour de versions avancées telles que YOLOv12.

De l'initiative de Redmon à l'impulsion d'Ultralytics : L'histoire de la maintenance YOLO

L'évolution de YOLO est intimement liée à ses figures de proue successives. Initialement porté par Joseph Redmon, créateur des versions YOLOv1 à YOLOv3 sous le framework Darknet, le projet a connu un tournant majeur lorsque Redmon s'est retiré de la recherche en vision par ordinateur début 2020 pour des raisons éthiques. Ce retrait n'a pas signifié la fin de YOLO, mais plutôt le début d'une nouvelle ère de contributions diversifiées. Alors que des chercheurs comme Alexey Bochkovskiy et son équipe ont brillamment assuré une continuité avec YOLOv4, prolongeant l'héritage Darknet, l'écosystème était mûr pour une approche axée sur une plus grande accessibilité. C'est dans ce contexte qu'Ultralytics, sous l'impulsion de Glenn Jocher, a véritablement catalysé la démocratisation de YOLO. En réimplémentant et en étendant les concepts fondamentaux de YOLO nativement en PyTorch avec des modèles comme YOLOv5, puis YOLOv8, l’entreprise Ultralytics n'a pas seulement offert des performances de pointe, mais a surtout abaissé drastiquement la barrière à l'entrée. Leur framework a simplifié l'entraînement, la personnalisation et le déploiement de modèles YOLO, les rendant accessibles à une communauté mondiale de développeurs, de chercheurs et d'entreprises.

Au cœur de YOLO : un équilibre entre rapidité et intelligence visuelle

En vision par ordinateur, l'interprétation et la localisation d'objets dans les images reposent sur des algorithmes sophistiqués. Deux approches principales ont longtemps coexisté, chacune avec ses forces et ses faiblesses.

Les CNN (Convolutional Neural Networks) : analyse rapide et efficace

Les CNN excellent par leur rapidité d'analyse. Ils fonctionnent en appliquant des filtres sur l'image pour identifier progressivement des éléments simples (contours, formes…) puis des combinaisons plus complexes (yeux, roues…). Cette méthode, très efficace et rapide grâce à des calculs optimisés, est à la base de nombreux algorithmes de vision, y compris les premières versions de YOLO. Cependant, les CNN peuvent avoir du mal à saisir les relations complexes entre des objets éloignés ou le contexte global d'une image avec autant de précision que d'autres techniques. Par exemple, pour reconnaître un "ballon de football", le CNN aura du mal à faire le lien avec la présence de cage de football localisée de l’autre côté de l’image.

Schéma illustrant l'architecture des réseaux de neurones convolutifs (CNN). Le diagramme montre les étapes de traitement d'une image d'entrée à travers des couches de convolution, de pooling, et des couches entièrement connectées, aboutissant à une sortie. Les étapes sont étiquetées comme "Feature Extraction" pour la convolution et le pooling, et "Classification" pour les couches entièrement connectées.

Transformers et le mécanisme d'attention : une nouvelle ère pour l'interprétation visuelle

Plus récemment, les Transformers, avec leur mécanisme d'attention, ont suscité un grand intérêt. L'attention permet à l'algorithme d'évaluer l'importance relative des différentes parties d'une image (ou d'un texte) les unes par rapport aux autres. Cela lui confère la capacité de connecter des informations distantes et de se concentrer sur l'essentiel pour interpréter des scènes complexes avec une grande précision. En reprenant l’exemple du "ballon de football", le Transformer peut accorder plus d'importance à la présence de cage de football localisée de l’autre côté de l’image. L'inconvénient majeur des Transformers réside dans leur forte demande en puissance de calcul, les rendant souvent plus lents que les CNN, ce qui peut être problématique pour les applications en temps réel. Parmi les modèles Transformer on peut nommer DETR étant actuellement l’un des meilleurs modèles de computer vision. En comparaison, la version moyenne de la série 12 de YOLO est 3 fois plus petite que DETR.

Schéma illustrant l'architecture du Vision Transformer (ViT). Le diagramme montre le processus de traitement d'une image d'entrée à travers des étapes de "Patch + Position embedding", une projection linéaire des patches aplatis, un encodeur de transformeur, et une tête MLP pour la classification. Le détail de l'encodeur de transformeur est également montré, incluant des couches de normalisation, des couches MLP, et des mécanismes d'attention multi-têtes.

Yolo : un mariage réussi entre CNN et mécanisme d’attention

Les créateurs de YOLO ont cherché à combiner les avantages de ces deux approches. Tout en conservant l'architecture efficace des CNN pour la rapidité, ils ont intégré des mécanismes d'attention plus légers et optimisés. L'objectif n'est pas d'utiliser l'attention "lourde" des Transformers de manière systématique, mais de l'appliquer de façon ciblée et ingénieuse. Par exemple, grâce à l'architecture d’Attention Localisée (ie "Area Attention"), YOLO apprend à concentrer son attention sur des zones spécifiques de l'image en la segmentant et en identifiant les zones qui nécessitent une analyse plus approfondie, sans avoir à calculer les relations entre tous les pixels. D'autres optimisations techniques, telles que "Flash Attention" ou la simplification du réseau, contribuent à rendre l'utilisation de l'attention compatible avec la vitesse caractéristique de YOLO.

En résumé, YOLO réalise un compromis astucieux en exploitant la rapidité des CNN pour l'analyse globale et en y intégrant des éléments d'intelligence contextuelle inspirés des Transformers. Cela lui permet d'améliorer la précision de la détection dans des scènes complexes sans sacrifier sa rapidité, à l'image d'un athlète rapide qui développe également des compétences d'observation et de stratégie.

YOLO : un algorithme aux applications concrètes illimitées

La polyvalence et la rapidité de YOLO lui ont ouvert les portes de nombreux secteurs, transformant des défis complexes en solutions tangibles.

Industrie et contrôle qualité

Dans le secteur manufacturier, YOLO automatise le contrôle qualité en repérant les défauts sur les chaînes de production, améliorant l'efficacité et réduisant les coûts.

Image montrant une ligne de production industrielle avec des bouteilles en plastique sur un convoyeur. Les bouteilles sont encadrées et étiquetées, avec une bouteille marquée comme "DEFECTED BOTTLE" en rouge et les autres comme "BOTTLE" en vert.

Véhicules autonomes

La conduite autonome exige une perception infaillible de l'environnement. YOLO détecte piétons, véhicules, signalisation et obstacles, assurant une navigation plus sûre et fiable.

Image montrant une scène de circulation avec des véhicules détectés et encadrés. Un bus, des voitures et un camion sont visibles sur une route avec des marquages de voie colorés. Les véhicules sont encadrés avec des boîtes de détection.

Surveillance et sécurité

YOLO révolutionne la surveillance en analysant les flux vidéo pour identifier comportements suspects, intrusions ou objets abandonnés, renforçant la sécurité des biens et des personnes.

Image montrant deux scènes de surveillance et de sécurité. À gauche, une voiture est encadrée avec une plaque d'immatriculation détectée et étiquetée, indiquant "VEHICLE ALLOWED" avec un horodatage. À droite, une personne portant un sac à dos est encadrée et détectée près d'une porte de salle de conférence, avec un horodatage.

Agriculture de précision

En agriculture, YOLO aide à identifier les maladies des plantes, détecter les mauvaises herbes, ou encore surveiller le bétail, optimisant les rendements et favorisant une agriculture durable.

Image montrant une feuille de plante avec des zones de taches bactériennes identifiées et encadrées. Les zones de taches bactériennes sont étiquetées avec des pourcentages de confiance, indiquant "Bacterial Spot" avec divers scores. Une partie saine de la feuille est également encadrée et étiquetée "Healthy Part 0.83".

Santé et diagnostic médical

La rapidité et la précision sont vitales en médecine. YOLO assiste les praticiens en détectant des anomalies sur des images médicales (radios, IRM), comme les tumeurs ou fractures, pour des diagnostics plus prompts.

Image médicale montrant une coupe IRM du cerveau avec des zones de tumeur identifiées et encadrées. Les zones tumorales sont étiquetées avec des pourcentages de confiance, indiquant "Tumor 100%" et "Tumor 98%".

Aide humanitaire et gestion de crise

Lors de catastrophes, une évaluation rapide des dégâts est cruciale. YOLO, analysant des images aériennes ou satellitaires (par exemple, pour le recensement d’habitation rural dans les pays défavorisés), aide à coordonner les secours et à acheminer l'aide efficacement. C’est l’un des projets conduit par l’Aqsone Lab en participant au projet Disaster Vulnerability Challenge proposé par la plateforme Zindi.

Image satellite montrant une zone rurale du Malawi avec des champs, des arbres et des routes. Plusieurs maisons sont détectées et encadrées en bleu, avec des scores de confiance indiqués

Le framework d’Ultralytics : une boîte à outils polyvalente pour la vision

Le framework Ultralytics est conçu pour simplifier et accélérer le développement de solutions en vision par ordinateur. En fournissant un ensemble complet d'outils préconstruits, de modèles pré-entraînés et de fonctionnalités modulaires, il permet aux chercheurs et aux développeurs de se concentrer sur les aspects spécifiques de leurs projets plutôt que de devoir construire les fondations à partir de zéro. Explorons en détail certains des outils et des avantages clés offerts par ce framework puissant.

Data Augmentation

Pour garantir la robustesse d'un modèle, un entraînement sur un volume important et varié de données est essentiel. Afin d'accroître cette diversité sans acquérir de nouvelles images, des techniques d'augmentation de données sont utilisées. Celles-ci comprennent des transformations classiques (recadrage, retournement, rotation, modification de la luminosité et du contraste) ainsi que des méthodes plus sophistiquées comme Mosaic (combinant quatre images en une seule) ou MixUp (mélange pondéré d'images et de leurs étiquettes). L'application de ces techniques permet d'exposer le modèle à un éventail plus large de situations, ce qui améliore sa capacité à généraliser.

L'image montre une transformation d'une image originale en plusieurs variantes, incluant des transformations standard comme le recadrage aléatoire, les retournements, les rotations, et les ajustements de luminosité et de contraste

Test-Time Augmentation (TTA)

Lors de la phase d'inférence (prédiction), la Test-Time Augmentation (TTA) peut améliorer les performances. Elle consiste à appliquer plusieurs transformations à l'image de test, à obtenir des prédictions pour chaque version transformée, puis à agréger ces prédictions (par exemple, par vote majoritaire ou moyenne). Bien que plus coûteuse en temps, cette méthode peut significativement augmenter la précision et le rappel du modèle.

Un Écosystème complet pour la vision par ordinateur

La librairie python mise à disposition par Ultralytics ne se limite pas à la détection d'objets. Leur framework étend les capacités de YOLO à :

Tracking d'objets : Suivre des objets identifiés à travers les trames d'une vidéo.
Segmentation d'instances : Identifier chaque instance d'objet au niveau du pixel, offrant une délimitation précise de sa forme.
Estimation de la pose : Détecter et suivre les points clés du corps humain (squelette).
Classification d'images : Catégoriser une image entière (pas de bounding box).
Détection d'Objets Orientés (OBB) : Détecter des objets avec une boîte englobante orientée, crucial pour l'imagerie aérienne où l'angle est important.

Conclusion : YOLO, un moteur d'innovation continue en vision par ordinateur

YOLO s'est imposé comme un algorithme de détection d'objets incontournable, alliant vitesse, précision et une adaptabilité remarquable. Son architecture novatrice et son évolution constante, portée par une communauté scientifique et des acteurs industriels dynamiques, lui permettent de s'illustrer dans une diversité impressionnante de domaines. Les avancées continues, comme celles explorées avec des modèles tels que YOLOv12-turbo (voir graphique de performance sur le dataset COCO, dataset de référence pour la détection d’objet), promettent de nouvelles capacités.

Graphique comparant la performance en mAP (%) sur le dataset COCO en fonction de la latence (en millisecondes) pour différentes versions du modèle YOLO, y compris YOLOv12-turbo.

La flexibilité offerte par des frameworks comme celui d'Ultralytics, avec ses fonctionnalités avancées de segmentation, d'estimation de pose ou de détection orientée, fait de YOLO bien plus qu'un simple détecteur : c'est une véritable boîte à outils polyvalente pour la vision par ordinateur. Alors que l'intelligence artificielle continue de progresser, YOLO et ses dérivés sont assurément destinés à redéfinir encore les standards, ouvrant la voie à des applications toujours plus intelligentes et performantes.

Pour aller plus loin (ressources utiles)

Papiers de recherche YOLO

YOLOv1 (Redmon et al., 2016) : "You Only Look Once: Unified, Real-Time Object Detection" https://arxiv.org/abs/1506.02640
YOLOv2 / YOLO9000 (Redmon et Farhadi, 2017) : "YOLO9000: Better, Faster, Stronger" https://arxiv.org/abs/1612.08242
YOLOv3 (Redmon et Farhadi, 2018) : "YOLOv3: An Incremental Improvement" https://arxiv.org/abs/1804.02767
YOLOv4 (Bochkovskiy, Wang, et Liao, 2020) : "YOLOv4: Optimal Speed and Accuracy of Object Detection" https://arxiv.org/abs/2004.10934
YOLOv6 (Meituan Technical Team, 2022-2023) : "YOLOv6 v3.0: A Full-Scale Reloading" https://arxiv.org/abs/2301.05586
YOLOv7 (Wang, Bochkovskiy, et Liao, 2022) : "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors" https://arxiv.org/abs/2207.02696
YOLOv8 (Ultralytics) : https://docs.ultralytics.com/models/yolov8/
YOLOv9 (Wang, Kuo, et Liao, 2024) : "YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information" https://arxiv.org/abs/2402.13616
YOLOv10 (Wang et al., Tsinghua University, 2024) : "YOLOv10: Real-Time End-to-End Object Detection" https://arxiv.org/abs/2405.14458
YOLOv12 (Yunjie Tian et al., 2025) : "YOLOv12: Attention-Centric Real-Time Object Detectors" https://arxiv.org/abs/2502.12524

Datasets majeurs en détection d'objets

COCO (Common Objects in Context) : https://cocodataset.org/
Pascal VOC : http://host.robots.ox.ac.uk/pascal/VOC/
ImageNet : https://www.image-net.org/
Open Images Dataset : https://storage.googleapis.com/openimages/web/index.html

Concepts clés et technologies associées

Convolutional Neural Networks (CNNs) :
- Article Wikipedia (FR) : https://fr.wikipedia.org/wiki/R%C3%A9seau_neuronal_convolutif
- Explication (EN) : https://zilliz.com/glossary/convolutional-neural-network
Transformers et Mécanisme d'Attention en Vision :
- "Attention Is All You Need" (Vaswani et al., 2017 - papier fondateur pour les Transformers en NLP) : https://arxiv.org/abs/1706.03762
- "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" (ViT, Dosovitskiy et al., 2020) : https://arxiv.org/abs/2010.11929
- DINOv2 (Meta AI) : https://dinov2.metademolab.com/
Framework :
- Site officiel d'Ultralytics : https://ultralytics.com/