Baies de disques Sun StorageTek Flexline 240 et 380

La BNF utilise des équipements de Sun pour préserver le patrimoine numérique francais

Depuis plus de cinq siècles, la Bibliothèque nationale de France conserve et enrichit le patrimoine écrit et en assure l’accès au plus grand nombre. Elle met à disposition du public, sur plusieurs sites, des collections riches et variées (livres, journaux, revues, manuscrits, estampes, cartes et plans, photographies, collections audiovisuelles...). Elle propose gratuitement aux internautes Gallica, bibliothèque numérique représentative de tous les champs de la connaissance. La BnF est aujourd’hui l’un des principaux promoteurs d’un patrimoine culturel numérique francais et européen. Elle est en charge de la création d’une future bibliothèque numérique européenne.

Défis client

  • Confrontée à une augmentation continuelle et rapide des informations (imprimées ou numériques) à conserver, la BnF devait adapter ses systèmes de stockage et d’archivage à ces nouvelles volumétries (+1Po à l’horizon 2012).

Solution

Le DSI de la BnF a dressé les contours d’une infrastructure matérielle d’archivage basée sur la norme OAIS, dont la la fourniture a été confiée à Sun. Cette nouvelle architecture basée sur des bandes et des disques est caractérisée par son ouverture, son évolutivité et ses performances.

Résultats commerciaux

  • Le nouveau système permet de charger des données numériques, de conserver et de mettre à disposition du public environ 100 000 documents par an (contre 6000 avant 2005).

Produits et services

  • Serveurs Sun V890 (processeurs UltraSPARC IV 1,2 GHz)
  • Baies de disques Sun StorageTek Flexline 240 et 380
  • Robotique Sun StorageTek SL8500 et lecteurs de bandes T9840
  • V240 (processeurs UltraSPARC IV 1,5 GHz)
  • Serveurs Sun V890 (processeurs UltraSPARC IV 1,2 GHz)

Etude de cas

La BnF utilise des équipements de Sun pour préserver le patrimoine numérique francais.

Conserver et préserver le patrimoine numérique
Depuis plus de cinq siècles, la Bibliothèque nationale de France conserve et enrichit le patrimoine écrit français et en assure l’accès au plus grand nombre. Elle met à disposition du public, sur plusieurs sites, des collections riches et variées et propose gratuitement aux internautes une bibliothèque numérique représentative de tous les champs de la connaissance (Gallica). La Bibliothèque nationale de France ne conserve pas seulement livres et journaux (13 millions de livres et d'imprimés) : ses fonds comprennent actuellement 250 000 volumes de manuscrits, 350 000 collections de périodiques, environ 12 millions d'affiches, plus de 800 000 cartes et plans, deux millions de pièces musicales, un million de documents sonores, plusieurs dizaines de milliers de vidéos et de documents d'estampes, photographies et multimédias, 530 000 monnaies et médailles...

S’étendant sur plus de 200 000 m2 de surface utile totale, répartie sur 6 sites, la Bibliothèque nationale de France offre plus de 10 millions de notices bibliographiques dans le catalogue BN-Opale Plus. Elle s’appuie sur 2 651 collaborateurs et un budget total de 254 M€.

Des volumes de données augmentant de manière exponentielle
La nouvelle BnF, issue de la fusion en 1994 de l’ancienne Bibliothèque Nationale et de l’établissement public de la Bibliothèque de France a pour vocation de « collecter, cataloguer, conserver et enrichir dans tous les champs de la connaissance, le patrimoine national dont elle a la garde, en particulier le patrimoine de langue française ou relatif à la civilisation française ». Sa Direction est rapidement confrontée à une augmentation continuelle et exponentielle des informations à conserver : la production imprimée ne cesse de croître. Afin de répondre à ces nouveaux besoins, les premiers projets de numérisation sont mis en place dans les années 90. La BnF s’est vue de plus confier une nouvelle mission : l’archivage du Web Français. En 2004, les prévisions portant sur les besoins en stockage informatique pour 2012 dépassent le Petaoctet. Les premiers systèmes mis en place n’étant plus adaptés à cette volumétrie, la BnF lance des études en interne, visant à dresser les contours d’une nouvelle architecture de stockage des documents.


« La vocation de la BnF ne se cantonne pas à la collecte et au catalogage des documents : nous évoluons dans une démarche de préservation. Il n’est pas question ici uniquement d’archivage légal tel qu’on l’entend aujourd’hui (environ 100 ans). L’ensemble des documents doit être perpétuellement"lisible Ceci implique notamment d’exploiter des standards ouverts et d’éviter de s’enchaîner dans des logiques propriétaires, tant en termes d’architecture qu’en termes fonctionnels. »
— M. Adoté Chilloh, Directeur adjoint du Département des systèmes

Aucune solution du marché ne répondant aux besoins de la BnF, le département des systèmes d’information est chargé d’imaginer une infrastructure d’archivage spécifique. Elle choisit d’adhérer au modèle normatif Open Archival Information System (OAIS) pour développer son Système de Préservation et d'Archivage Réparti (S.P.A.R) et opte pour une technologie de bandes pour le stockage principal et le système de secours, et une technologie de disques pour la consultation. En 2005, la volumétrie atteint environ 20 To de données stockées, puis plus de 200 To en 2007. « Nous avons considéré que les technologies de bande étaient encore les plus compétitives pour les volumétries attendues précise M. Chilloh. « Tout l’aspect conservation devait être géré en parallèle, via un logiciel spécifique assurant la vérification du format des données avant l’archivage, la gestion des métadonnées, la gestion des droits légaux et la gestion du cycle de vie des bandes. »

La BnF ne compte pas acquérir dès le départ la pleine capacité de stockage visant à satisfaire ses besoins projetés sur 10 ans. Le matériel fourni doit satisfaire au moins ses premiers besoins pour l'année en cours et offrir une évolutivité en terme de puissance et de capacités de stockage sur les quatre années du contrat. La BnF exige que l'architecture de stockage puisse soutenir, de manière rentable, des variaflexlinetions de la croissance de ses données et être assez flexible pour tirer profit des avancées technologiques pouvant apparaître durant cette période.

Une architecture évolutive Sun StorageTek
La BnF lance ainsi un appel d’offres, exigeant de chaque candidat qu’il soumette son dispositif à une phase de tests, afin de prouver que le système correspond à l’offre et répond aux exigences de performances du cahier des charges, notamment en matière d’écriture, de consultation, etc. « Notre choix final a tenu compte de l’offre sur le plan technique, des résultats de ces tests, et également des coûts » ajoute M. Chilloh. « La réponse de Sun StorageTek était la plus satisfaisante, tant en termes économiques, que de couverture fonctionnelle de l’architecture matérielle et logicielle, et des prestations de mises en œuvre. »

Pour garantir la pérennité du système, la BnF souhaite de plus que le logiciel de gestion des bandes soit livré avec les API et les interfaces de programmation et qu’il ne repose pas sur des fonctions de cryptage ou de compression irréversible.

Le système proposé par Sun pour la tranche ferme du marché repose sur des serveurs Sun V890, V490 et V240 hébergeant les unités de traitement et de gestion du stockage ; une robotique Sun StorageTek SL8500 par site composée de 6500 alvéoles équipées de lecteurs de bandes haute performance T9840 ainsi que de deux lecteurs StorageTek T10000 délivrant un débit nominal de 100Mo/sec et une capacité par média hors compression de 40 Gb pour le site principal et de 500 Gb pour le site de secours ; et des baies de disques Sun StorageTek Flexline 240 et 380, en accès SAN et NAS pour le stockage des bases de données, des espaces de travail et des fichiers en consultation. La partie logicielle est basée sur Arcsys Manager d’Infotel, moteur d’archivage et de gestion des moyens de stockage, assurant l’interface avec les applications métiers de la BnF. Basé sur une architecture multisites et une réplication synchrone ou asynchrone des données, le système garantit la sécurité des données via un site de secours équipé des mêmes dispositifs que le site principal, sur lequel est basé le Plan de reprise d’activité de la BnF.

« Tenant compte de nos contraintes, la réponse de Sun répondait parfaitement à nos attentes en matière d’évolutivité, de sécurité, de pérennité et d’ouverture. De plus, la robotique affichait les meilleures performances d’accès » commente M. Chilloh.

100 000 documents numérisés par an
Aujourd’hui, les documents sont numérisés en qualité supérieure par un prestataire, puis chargés sur disques et vérifiés via des contrôles visuels. Ils sont ensuite versés sur des bandes en format Tiff et des copies plus légères (par ex. en .jpg) sont stockées sur des disques pour la consultation via Gallica (documents libres de droits) ou au sein de la BnF (fonds documentaires à consulter sur place). « Ce processus permet désormais de numériser, de conserver et de mettre à disposition du public environ 100 000 documents par an, contre 6000 avant 2005 » ajoute M. Chilloh. « Aujourd’hui, une partie de l’infrastructure est opérationnelle pour l’extérieur. Tous les services internes ont basculé sur la baie de consultation, mais la mise en œuvre définitive s’achèvera en 2009 ».

En termes de performances, « il n’y a pas d’écart entre le réel et les performances attendues, même si notre utilisation reste encore minimale aujourd’hui. Le système fonctionnant 24 heures sur 24 et 7 jours sur 7 et étant de plus accessible par le public, nous devons proposer une qualité de service impeccable. A partir de 2008, cette utilisation sera optimale et nous serons mieux en mesure d’apprécier les performances du système de Sun » conclut M. Chilloh.

Aide rapide
France: