Oracle Autonomous Data Warehouse aide les ligues, équipes, médias et autres utilisateurs à enrichir leurs analyses pendant et après les matchs.
Jeff Erickson | 5 juillet 2024
Lorsqu’une équipe de football (ou soccer pour les fans américains) passe à l’attaque, les joueurs n’attendent pas l’autorisation pour se déplacer. Une fois le ballon en leur possession, la créativité prend le dessus et les possibilités sont nombreuses, mais éphémères.
De la même façon, un large éventail d’acteurs du football au Royaume-Uni, médias, sociétés de paris, clubs, ligues et partenaires commerciaux, souhaitent disposer de la liberté nécessaire pour explorer rapidement les opportunités que recèlent les données de match et autres types de données. Jusqu'à récemment, ces données, générées par la Premier League et d'autres ligues et compétitions, étaient souvent stockées chez divers fournisseurs de données sportives, ce qui introduisait des intermédiaires et des étapes supplémentaires, freinant l’exploration créative.
Aujourd’hui, grâce à l’expertise d’Oracle en matière de données et à son infrastructure cloud, une société appelée Football DataCo (FDC), détenue conjointement par la Premier League et la Football League anglaise, consolide toutes ces données de match (32 ans d’historique, 27 ligues et compétitions éliminatoires, ainsi que les flux de données en temps réel) dans un Oracle Autonomous Data Warehouse unique. Cet accord permet à la Premier League de mieux maîtriser le vaste patrimoine de données qu’elle possède.
En tant que ligue la plus suivie au monde, la Premier League génère à elle seule des téraoctets de données chaque jour de match, capturées 25 fois par seconde par des caméras suivant chaque joueur, course, passe, tir, arrêt, tacle et autre événement sur le terrain. Ces données sont mises à disposition sur demande des médias, analystes de ligue et autres utilisateurs concernés.
« Désormais, nous pouvons actualiser ces données en temps réel, de manière autonome, et permettre à l’utilisateur d’y accéder via le front-end de la Premier League », explique Mark Bowden, responsable produit et relations chez FDC. Bowden prévoit que les analystes liés à la Premier League, aux autres compétitions britanniques et à leurs partenaires pourront tirer parti de ces données avec l’outil analytique de leur choix. Les possibilités ne feront que croître à mesure qu'Oracle Autonomous Data Warehouse permettra aux utilisateurs d'interagir avec les données via des grands modèles de langage d'IA générative (LLM). « GenAI va profondément changer notre manière d’accéder aux données », affirme-t-il.
En interagissant avec GenAI plutôt qu’avec des programmeurs SQL, les profils éditoriaux et créatifs peuvent apporter leur propre approche à la narration basée sur les données, « au-delà de ce qu’un spécialiste des données pourrait imaginer », dit-il. « J’adorerais voir ça. »
Les utilisateurs peuvent interroger l'entrepôt de données avec des questions simples sur les performances des joueurs, comme la distance parcourue par certains milieux de terrain ou le nombre de ballons joués dans la moitié de terrain adverse. Ils peuvent aussi poser des questions historiques, comme le nombre de fois où un gardien a marqué le but décisif en Premier League. Ils peuvent également poser des questions tactiques complexes : l’équipe menée joue-t-elle trop loin devant cet adversaire ? Quelle a été l’efficacité de cette tactique pour d’autres équipes ? A-t-elle souvent conduit à des buts sur contre-attaque ?
La Premier League à elle seule a collecté des données sur 73 000 matchs, impliquant 250 équipes dans 345 stades différents, explique Simon Wigley, directeur de l'analyse chez Oracle Technology Consulting, qui collabore avec FDC. « Pour chacun de ces matchs, nous connaissons les compositions, les positions des joueurs et les remplacements », précise Wigley. Cela représente des données sur environ 20 000 joueurs, 130 000 buts, ainsi que des statistiques sur les entraîneurs et les arbitres. Et bien que les décisions issues de l’arbitrage vidéo (VAR) soient relativement récentes, on recense déjà 1 200 cas dans les données, ajoute-t-il.
Pourtant, toutes ces données historiques sont peu de chose comparées aux richesses générées par les systèmes d’IA modernes les jours de match, selon Wigley.
"« Désormais, nous pouvons actualiser ces données en temps réel, de manière autonome, et permettre aux utilisateurs d’y accéder via le front-end de la Premier League. »
Prenons la Premier League. Non seulement ses partenaires collectent des données sur chaque passe, tir, course, tacle, corner, etc. (soit 39 millions d’événements enregistrés dans l’entrepôt de données) mais chaque événement comprend aussi plusieurs attributs. « Lors d’une passe, le système enregistre la vitesse, l’émetteur et le receveur », explique Wigley. « Pour un corner, on note la direction et le tireur. » La liste est longue. Au total, 180 millions d’attributs sont présents dans l’ensemble de données consolidé, selon lui.
« Ce sont des matières premières idéales pour répondre à n’importe quelle question », explique Brian Macdonald, architecte cloud spécialisé en data science sportive chez Oracle. « Quand je regarde un match, je peux voir quelque chose et me dire “je n’ai jamais vu ça auparavant”. Je peux alors analyser pour savoir si c’est déjà arrivé, et si oui, à quelle fréquence. Une question en amène vite une autre. »
Macdonald explique qu’il utilise souvent Oracle Analytics Platform, Oracle Analytics Platform connecté à un Autonomous Data Warehouse, pour filtrer, analyser et créer des graphiques ou tableaux. « Je peux aussi vouloir créer un modèle prédictif, comme estimer la probabilité de victoire pendant un match, à partir de simulations utilisant des données historiques », précise-t-il.
Chaque semaine, la plateforme Oracle transfère dans l’entrepôt de données les contenus issus des collecteurs locaux, représentant 94 000 charges utiles. Le timing est essentiel : des centaines de matchs se jouent chaque semaine, et les ligues inférieures collectent les données à des niveaux de détail variables. De plus, avec les tournois à élimination directe du football anglais, les calendriers changent en permanence. « Le système doit savoir non seulement quelles données demander, mais aussi quand les demander », explique Wigley. « Il a fallu beaucoup de travail pour que notre code et notre logique prennent tout cela en compte. »
Le système ingère les données de différentes façons selon les cas d’usage. Certains de ces charges utiles (compositions, affluence, données standards de match) sont stockées avec les données de suivi des joueurs, que les analystes peuvent agréger pour produire des résumés de match et alimenter des analyses ou prédictions avancées.
La prochaine étape du projet, actuellement une preuve de concept, consiste à ingérer en temps réel les données de match via ce que Wigley appelle la « voie rapide ». Ces données sont mises à disposition des analystes en temps réel. « Lorsqu’un événement se produit en Premier League, les utilisateurs de l’entrepôt de données pourront l’intégrer instantanément à leur analyse », dit-il.
Désormais, la Premier League et les autres utilisateurs ont accès à l’ensemble de ces données de match et historiques, qu’ils peuvent exploiter librement, selon Wigley. Par exemple, la Premier League pourrait extraire des données pertinentes depuis l’entrepôt de données, y appliquer GenAI, et générer des résumés personnalisés pour les fans, dans leur langue, en fonction des paramètres indiqués, comme une équipe, un joueur ou une position sur le terrain.
Bowden (FDC) ajoute : « C’est un vrai tournant pour nous de sentir que nous avons enfin le contrôle et les moyens d’exploiter un vaste ensemble de sources de données disparates. Et le plus enthousiasmant, c’est que nous ne savons pas encore jusqu’où cela ira. »
La plateforme Oracle Analytics est un service cloud native qui fournit les capacités requises pour traiter l'ensemble du processus d'analyse, y compris l'ingestion et la modélisation des données, ainsi que la visualisation et la collaboration, sans compromettre la sécurité et la gouvernance.
Oracle Analytics Cloud a analysé les données des 380 matchs pour désigner les lauréats 2024 des prix du retour le plus invraisemblable et du but le plus puissant.