Comment stocker des pétaoctets de données générées par les machines ?

De plus en plus de machines et d’appareils génèrent des données, augmentant ainsi la quantité de données dans le monde de plusieurs milliards de téraoctets chaque année. Mais où allons-nous stocker tout ça? Même à l’ère de l’IoT, les disques durs restent indispensables.

Tribune par Rainer W Kaese Senior Manager Business Development, Storage Products Division, Toshiba Electronics Europe GmbH – Les volumes de données se sont multipliés au cours des dernières décennies. Mais la véritable explosion des données est encore à venir. Alors que, dans le passé, c’était principalement les personnes qui créaient les données (photos, vidéos et documents), avec l’avènement de l’ère de l’IoT, se sont les machines, les appareils et les capteurs qui deviennent les plus grands producteurs de données. Ils sont déjà plus nombreux  que les humains et génèrent des données beaucoup plus rapidement que nous. Une seule voiture autonome, par exemple, crée plusieurs téraoctets par jour. Ensuite, il y a l’accélérateur de particules du CERN qui génère un pétaoctet par seconde. Bien que « seulement » environ 10 pétaoctets par mois soient retenus pour une analyse ultérieure.

Outre la conduite autonome et la recherche, la vidéosurveillance et l’industrie sont les principaux contributeurs à ce flux de données. La société d’études de marché IDC suppose que le volume de données mondial passera de 45 zettaoctets l’année dernière à 175 zettaoctets en 2025[i]. Cela signifie que, d’ici six ans, trois fois plus de données seront générées qu’en 2019, soit 130 zettaoctets, soit 130 milliards de téraoctets.

Une grande partie de ces données sera évaluée au moment de sa création. Par exemple, dans les capteurs alimentant un véhicule autonome ou via le Edge Computing. Ici, des résultats rapides et des réactions en temps réel sont essentiels, de sorte que le temps requis pour la transmission des données et l’analyse centrale est trop élevé. Cependant, l’espace de stockage sur site et la puissance de calcul sont limités, donc tôt ou tard, la plupart des données aboutissent dans un centre de données. Elles peuvent ensuite être post-traitées et fusionnées avec des données provenant d’autres sources, analysées plus en amont et archivées.

Cela pose d’énormes défis pour les infrastructures de stockage des entreprises et des instituts de recherche. Ils doivent être capables d’absorber un afflux constant de grandes quantités de données et les stocker de manière fiable. Cela n’est possible qu’avec des architectures évolutives qui fournissent des capacités de stockage de plusieurs dizaines de pétaoctets et peuvent être continuellement étendues. Et ils ont besoin de fournisseurs fiables de matériel de stockage capables de satisfaire cette demande de stockage continue et croissante. Après tout, nous ne pouvons pas nous permettre que les données finissent par disparaitre. Le cloud public est souvent présenté comme une solution appropriée. Pourtant, la réalité est que la bande passante pour les volumes de données dont nous parlons est insuffisante. Les coûts ne sont pas économiquement viables.

Pour les entreprises qui stockent des données IoT, le stockage devient, en un sens, une marchandise. Il n’est pas consommé au sens propre du terme mais, comme d’autres biens de consommation. Il est acheté régulièrement et nécessite un investissement continu. Les instituts de recherche telles que le CERN qui traitent et stockent déjà de grandes quantités de données ont un aperçu de ce à quoi peuvent ressembler les infrastructures de stockage et les modèles d’achat de stockage à l’ère de l’IoT. Le centre de recherche européen en physique des particules ajoute continuellement de nouvelles unités d’extension de stockage à son centre de données. Chacune contenant plusieurs centaines de disques durs de dernière génération. Au total, leurs 100 000 disques durs ont atteint une capacité de stockage totale de 350 pétaoctets[ii].

Le prix influe sur le support de stockage

L’exemple du CERN montre que les disques durs sont essentiels lorsqu’il s’agit de stocker des quantités de données aussi énormes. Les disques durs restent le support le moins cher, bénéficiant à la fois d’un vaste espace de stockage et mais aussi d’une utilisation facile. En comparaison, la cassette est très peu coûteuse mais ne convient pas comme support hors ligne. Elle ne convient que pour l’archivage des données. La mémoire flash, en revanche, est actuellement encore huit à dix fois plus chère par unité de capacité de stockage que les disques durs. Bien que les prix des disques SSD baissent, ils le font à un rythme similaire à celui des disques durs. De plus, les disques durs sont très bien adaptés pour répondre aux exigences de performances dans des environnements de stockage à grande capacité. Un seul disque dur peut être moins intéressant qu’un seul SSD, mais la combinaison de plusieurs disques durs à rotation rapide permet d’obtenir des valeurs d’IOPS très élevées qui peuvent fournir de manière fiable les applications d’analyse les données nécessaires.   En fin de compte, le prix est le seul critère décisif. D’autant plus que les volumes de données à stocker dans le monde IoT ne peuvent être compressés que de manière minimale pour économiser un espace de stockage précieux. Dans la mesure du possible, la compression a généralement lieu au endpoint ou via le Edge pour réduire la quantité de données à transmettre. Ainsi, cette quantité arrive au centre de données sous forme compressée et doit être stocké sans autre compression. En outre, la déduplication offre peu d’économies potentielles car, contrairement aux partages ou sauvegardes de fichiers d’entreprise classiques, il n’y a pratiquement pas de données identiques.   En raison du flot de données IoT et de la grande quantité de disques requise qui en résulte, la fiabilité des disques durs utilisés est d’une grande importance. Cela a moins à voir avec les pertes de données possibles, car celles-ci peuvent être gérées à l’aide de mécanismes de sauvegarde appropriés, qu’avec la maintenance du matériel. Avec un taux de défaillance annualisé (AFR) atteint par le CERN de 0,7%, au lieu des 0,35% grâce aux disques durs Toshiba, une solution de stockage utilisant 100000 disques durs exigerait que 350 disques soient remplacés chaque année – en moyenne près d’un disque de plus par jour.

Les disques durs : essentiels dans les années à venir   Dans les années à venir, peu de choses changeront avec un stockage des données IoT supportée principalement par les disques durs. Les capacités de production Flash resteront tout simplement trop faibles pour que les SSD dépassent les HDD. Pour couvrir la demande de stockage actuelle uniquement avec des disques SSD, la production flash devrait augmenter considérablement. Sachant que les coûts de construction d’une seule usine de fabrication flash s’élèvent à plusieurs milliards d’euros, il s’agit d’une entreprise difficile à financer. De plus, cela n’entraînerait une puissance flash plus élevée qu’après environ deux ans.  Ce qui ne couvrirait que la demande de 2020 et non celle de 2022.   La production de disques durs, par contre, peut être augmentée beaucoup plus facilement car il faut moins de production que dans la production de semi-conducteurs. De plus, le développement des disques durs progresse continuellement et de nouvelles technologies telles que HAMR (Heat-Assisted Magnetic Recording) et MAMR (Microwave-Assisted Magnetic Recording) continuent de générer des augmentations de capacité. Les experts supposent que la capacité de stockage des disques durs continuera d’augmenter à un rythme d’environ 2 téraoctets par an à coût constant pendant encore quelques années. Ainsi, IDC prévoit que d’ici la fin de 2025, plus de 80% de la capacité requise dans le secteur des entreprises pour les centres de données de base et via le Edge continueront d’être obtenus sous forme de disques durs et moins de 20% sur les disques SSD et autres support flash.

###

Rainer W. Kaese, Senior Manager Business Development, Storage Products Division, Toshiba Electronics Europe GmbH (Source: Toshiba Electronics Europe)

[i] Livre blanc IDC “Data Age 2025”, mis à jour en mai 2020

[ii] Étude de cas de Toshiba

No votes yet.
Please wait...