Biotech Etats-Unis – Rise of AMD, Data Management’s Wild West, Plus – Act-in-biotech

Compte tenu de la perturbation causée par la pandémie de COVID-19 et de l’enrôlement massif des principales ressources de HPC pour lutter contre la pandémie, il est particulièrement approprié d’examiner l’état de l’utilisation du HPC dans les sciences de la vie. C’est quelque chose HPCwire a fait chaque année avec le cabinet de conseil Bioteam dont la perspective «bottes sur la rue» a une sensation d’initié pratique. Pas étonnant, l’IA occupe une place plus importante dans leur pratique cette année, un changement marqué par l’embauche récente par Bioteam de Fernanda Foertter, un ancien gourou de l’IA à Nvidia.

Ari Berman, BioTeam

La conversation de cette année a réuni Ari Berman, PDG de Bioteam, Chris Dagdigian, l’un des fondateurs de Bioteam, et Mike Steeves, consultant scientifique principal. Sur le dossier, il y avait la diversité des processeurs (AMD gagne alors qu’Arm n’a pas encore fait beaucoup de progrès en LS); stockage et gestion des données (préparez-vous à payer pour ce que vous stockez!); les besoins et les pratiques du réseau (il n’est peut-être pas surprenant qu’il y ait ici une division de la pratique entre le monde universitaire et l’industrie); et l’IA (le mélange de battage publicitaire, de coups de pied et d’utilisation réelle se poursuit). La première partie présentée ici traite des processeurs et du stockage.

Mais d’abord un bref prologue.

Les sciences de la vie ont traditionnellement adopté tardivement la technologie HPC traditionnelle. Les applications HPC requises (grandes, étroitement couplées) n’étaient pas là. En outre, la communauté des soins de santé a tendance à être conservatrice (ne pas nuire) préférant une informatique éprouvée, rentable et plus facilement prise en charge. L’analyse des données a été la première percée, motivée par le besoin de séquençage de l’ADN d’un traitement parallèle massif. La simulation prédictive est restée davantage un travail en cours, entravée par des lacunes dans la compréhension de la biologie de base et le manque de descriptions mathématiques suffisamment rigoureuses (ou complètes) des systèmes biologiques complexes.

Cette image a radicalement changé au cours des dernières années. Non seulement la prolifération d’instruments générant de grandes quantités de données s’est multipliée – récemment dirigée par la cryo-EM et d’autres technologies d’imagerie – mais également un décryptage régulier de la génomique fonctionnelle et de la biologie de base a produit des descriptions plus précises des processus biologiques et qui peuvent être transformées en amélioration des simulations utiles en recherche et en clinique. Bien entendu, les techniques de modélisation moléculaire ont également progressé. Assez rapidement, l’étendue de la puissance de calcul utilisée dans les sciences de la vie s’est élargie.

Utilisation de l’apprentissage en profondeur CANDLE pour extraire les états intermédiaires de repliement des protéines. | Institut national du cancer

Maintenant, l’IA a fait irruption sur la scène, transformant notre façon de penser le HPC et devenant une force formidable dans les sciences de la vie. Non seulement l’IA est essentielle pour comprendre le flux de données biomédicales, mais elle est également devenue un catalyseur important fusionnant l’analyse des données et la simulation dans une approche mixte qui se révèle remarquablement efficace. Il est possible, par exemple, d’utiliser des techniques d’IA sur de grands ensembles de données vidéo d’expériences «vivantes» pour dériver certains des premiers OD / PDE principaux pour décrire la simulation mécanistique. (Voir HPCwire couverture, ISC Keynote: The Algorithms of Life – Scientific Computing for Systems Biology)

Il est clair que la recherche en bio-informatique a parcouru un long chemin en relativement peu de temps. En 2015, Berman de Bioteam estimait qu’environ 15 à 25% des chercheurs biomédicaux utilisaient le HPC sous une forme ou une autre. L’année suivante, c’était en hausse [to] ~ 30-50 pour cent.

« La dernière fois que nous avons discuté (2019), nous pensions que ce serait jusqu’à environ 75% », a déclaré Berman dans la revue HPC-in-LS de cette année. «Aujourd’hui, je ne pense pas qu’il existe un seul protocole moderne de recherche ou de diagnostic en sciences de la vie qui n’utilise pas l’informatique avancée d’une manière ou d’une autre. Je serais prêt à dire que c’est entre 95 et 100% [of] les applications nécessitent une informatique avancée d’une certaine manière. Quelques recherches sur le style plus ancien [such as] lecteurs de plaques courants et s’appuie sur des analyses statistiques mineures [require HPC], mais je pense que ces jours passent.

« Je dis tout cela avec un sous-texte que tout le monde ne sait pas qu’ils utilisent HPC. Les applications, les piles d’analyse, etc. que les systèmes HPC avant donnent l’impression que les chercheurs utilisent simplement un autre site Web ou utilisent une application fournie avec un instrument, mais il utilise vraiment une sorte de ces systèmes d’arrière-plan très évolutifs. »

Il peut être utile de noter un changement de langue. Autrefois, la communauté et l’infrastructure HPC étaient bien distinctes de l’infrastructure d’entreprise et des utilisateurs «non scientifiques». Aujourd’hui, ces mondes sont en collision et nos idées sur ce qui constitue l’informatique avancée évoluent. L’IA et l’informatique accélérée sont les moteurs qui façonnent ce qui est devenu une infrastructure plus mixte. Très récemment, il est devenu courant de désigner le centre de données, au moins sur le plan conceptuel, comme «l’unité de calcul» capable de gérer une grande variété d’applications auparavant distinctes, y compris HPC / AI. Aujourd’hui, ce qui constitue l’informatique évoluée semble également englober le HPC.

Dans un sens, la recherche en sciences de la vie incarne cette tendance, car ses besoins informatiques se sont développés parallèlement aux progrès de la technologie informatique elle-même. Ce qui suit est la première partie de notre examen annuel en deux parties du HPC / AI en sciences de la vie.

GUERRE DES PROCESSEURS – PAS EXACTEMENT

L’âge de la domination du processeur n’est pas révolu, mais la bataille pour le partage de l’esprit semble avoir diminué alors que les consommateurs d’infrastructures de recherche biologique recherchent le prix / les performances dans les processeurs, car ils jouent un rôle réduit dans les architectures hétérogènes. L’attention s’est déplacée vers les GPU – plus nombreux par système et peut-être plus percutants dans le schéma actuel des choses. À l’inverse, les accélérateurs de pointe axés sur l’IA ne sont pilotés de manière agressive que dans les grands laboratoires du DoE, et ont encore besoin de temps pour mûrir et s’installer dans des niches avant de gagner une large acceptation LS. Dans une large mesure, ces tendances dans l’utilisation des processeurs sont les tendances de l’année dernière.

« Le plus grand changement que nous ayons constaté concerne les acheteurs de matériel sur site ou les grosses transactions HPC. Tout l’élan en ce moment est derrière AMD; il a la feuille de route, l’analyse comparative et la tarification », a déclaré Dagdigian. « Intel n’a pas vraiment la meilleure réponse pour certaines de ces choses. »

Cela correspond à la résurgence d’AMD dans les serveurs haut de gamme à grande échelle et dans les superordinateurs. Cela dit, beaucoup regardent le réalignement d’Intel sous la direction du PDG Bob Swan et attendent de voir comment le prochain processeur (Sapphire Rapids) et la gamme de GPU XE fonctionnent. le Aurore supercalculateur, comprenant à la fois des GPU et des processeurs Intel, sera la vitrine.

Berman rapporte le succès du supercalculateur Summit du DoE, y compris son Travail en cours sur la recherche COVID-19, a attiré l’attention positive d’IBM dans la communauté des sciences de la vie. Cela dit, l’adoption généralisée des systèmes à microprocesseur Power a été lente et IBM n’a pas beaucoup parlé de la mise à niveau des puces Power9 ni fourni de détails pour Power10. Également OpenPOWER La Fondation a déménagé sous l’autorité de la Fondation Linux. Le temps nous le dira. Berman a déclaré: «IBM pousse vraiment les domaines quantiques et leur architecture et services cloud ainsi que les services logiciels en tant qu’entreprise.» HPC ou au moins Power pourrait liquider un beau-fils.

Fait intéressant, la résurgence d’Arm dans le HPC ne s’est pas encore étendue aux sciences de la vie. «Les spécialistes des sciences de la vie ont tendance à être un peu timides en ce qui concerne les nouvelles architectures. Les sciences de la vie vont pénétrer dans le territoire du bras quand [more established]. La résurgence du HPC en général est réelle et vous pouvez entendre des annonces à l’époque du SC2020 », a déclaré Berman.

L’adoption de FPGA dans les sciences de la vie a été lente selon Bioteam malgré les efforts d’abstraction autour des langages de description du matériel pour les rendre plus faciles à utiliser et le développement de bibliothèques Python qui pourraient les utiliser. « Les gens ne voient pas vraiment le rapport qualité-prix là-bas ou ne comprennent pas vraiment[ing] comment les intégrer », a déclaré Berman.

Le marché des GPU est soudainement le plus intéressant. Intel plonger dans les GPU et les victoires d’AMD dans les grands systèmes HPC utilisant à la fois des processeurs AMD et des GPU AMD (Radeon), selon Bioteam. Tous conviennent que Nvidia reste solidement en tête et son introduction la semaine dernière du GPU Ampere A100 renforce cette position. Mais le rapport qualité-prix joue bien dans les sciences de la vie et AMD y a un avantage. Jusqu’à présent, AMD avait hésité à concurrencer Nvidia sur les marchés des GPU haut de gamme, mais peut-être pas pour longtemps. Il est à noter que Nvidia a choisi un processeur AMD (Epyc à 64 cœurs) pour son système DGX-A100. Et CUDA11 offre le support Arm64. Des eaux troubles ici.

Ensuite, il y a le gambit GPU très regardé d’Intel.

« Je vais appeler cela une étrange surprise, Intel se forgeant dans l’espace GPU avec Ponte Vecchio (meilleur SKU de sa prochaine gamme de GPU). Il semble qu’il puisse se défendre contre les autres, bien que, vous savez, Nvidia soit encore loin devant. Le jeu d’Intel consiste à créer une plate-forme unifiée à partir du processeur, du processeur graphique, du stockage, de la mémoire et des logiciels en utilisant oneAPI. La promesse est que quelqu’un pourrait essentiellement écrire un logiciel en utilisant oneAPI et le faire traiter également sans aucune modification de votre code sur un GPU ou un processeur de niveau système. C’est très intéressant à certains égards », a déclaré Berman.

À l’heure actuelle, l’utilisation d’accélérateurs exotiques comme l’échelle de plaquette de Cerebras puce ne sont que des priorités dans les grands centres de test tels que le laboratoire national d’Argonne, qui teste de manière agressive autant de nouvelles puces d’accélérateur d’IA que possible, selon Rick Stevens, directeur adjoint du laboratoire d’ANL, sciences de la vie, informatique et environnement. La puce Cerebras est énorme – 1,2 billion de transistors, 400 000 cœurs AI. ANL a déjà mis la puce Cerebras au travail sur COVID-19. Plus de chercheurs en sciences de la vie grand public attendront.

Puce Cerebras AI

Berman a plaisanté: «La puce Cerebras est comme la taille de ma tête, non? C’est un exploit technique incroyable et aussi un gros coup. Revenons à votre question sur ces puces en général. Outre les problèmes de pointe, comme certains des problèmes de cancer qu’ils essaient de résoudre dans Cancer Moonshot ou le traitement en temps réel des données de diagnostic par rapport aux données connues, ce genre de choses sur lesquelles on travaille, il n’y a pas beaucoup d’application pour [these chips] encore dans notre espace. Gardez à l’esprit, vous savez, il a fallu 20 ans aux sciences de la vie pour adopter massivement les GPU. »

Steeves a ajouté: «Même avec les GPU. Nous voulons obtenir de nouveaux passionnants et intéressants [devices] mais alors vous devez commencer à réécrire des codes pour en profiter. Soudain, vous voyez beaucoup moins d’intérêt et de demande pour cela. Il faudra probablement quelques années à quelqu’un pour créer cette application de tueur pour un accélérateur matériel particulier, ou peut-être quand il y a un document si intéressant que je veux l’essayer et que le logiciel est disponible. « 

Berman a noté: «Dans les sciences de la vie, une étape importante dans l’utilisation de choses comme les coprocesseurs et de meilleurs algorithmes se produit lorsque quelqu’un d’autre fait le travail acharné de les développer. C’est parce que le NIH ne finance pas des choses comme ça. Vous savez, les subventions ne couvriront pas les arcs de développement pluriannuels pour l’optimisation des algorithmes pour les GPU. La seule chose qu’ils couvrent sont les résultats des travaux qui pourraient être publiés. Donc, l’incitation n’est pas là non plus. « 

STOCKAGE & DM – APPRENDRE LE WILD WEST?

Le stockage et la gestion des données sont des défis permanents dans les sciences de la vie. Les microscopes à lame de lumière en treillis, par exemple, peuvent générer de l’ordre de 2 ou 3 téraoctets en quelques heures et ils ne sont qu’un des nombreux instruments d’imagerie générant de vastes ensembles de données. Remplissez une pièce ou un étage avec ce type d’instruments et assez rapidement, vous avez généré beaucoup de données. Aujourd’hui cependant, le problème n’est pas tant la sélection et le déploiement de la capacité de stockage nécessaire – c’est principalement un problème résolu selon Bioteam. Il gère les données.

Pensez à l’utilisation croissante de l’apprentissage automatique et de l’apprentissage en profondeur pour exploiter toutes ces données pour des modèles significatifs et des analyses traditionnelles. Le vieux mantra des ordures dans les ordures s’applique. Au-delà de la qualité des données, il y a tout le méta-tagging qui doit être accompli et suivi. De plus, les données doivent être largement accessibles aux collaborateurs et autres chercheurs tout en préservant la sécurité et la confidentialité.

Chris Dagdigian, Bioteam

En se concentrant sur la politique de stockage, Dagdigian a offert trois observations et ressemblait presque à un prédicateur de tente de réveil:

  • «Il y a une pratique que j’ai bien l’intention de voler au DoE et aux sites de superordinateurs. Lorsque NERSC a déployé sa nouvelle matrice de stockage NVMe de 30 pétaoctets 100% flash, l’une des annonce est qu’ils se déplacent vers aucun répertoire personnel ou aucun répertoire personnel de taille considérable pour quiconque. 100% du nouveau stockage à l’échelle du pétaoctet est alloué. C’est quelque chose que je veux voir plus poussé en entreprise. Un de le plus gros problème avec le désordre de données que nous avons est que trop de gens stockent de la merde dans leurs propres répertoires, des projets, des équipes. C’est au point où les scientifiques individuels peuvent avoir 10 à 20 téraoctets de choses sous un répertoire personnel. Ce n’est pas trouvable. Ce n’est pas facile à partager. Nous en sommes maintenant au point où le stockage personnel n’est plus sur la table. Si vous voulez plus de 500 concerts, nous l’allouons et cela doit provenir d’un projet. Cela doit être dans un domaine particulier, et cela va suivre une convention de dénomination, une convention de normes de données, et vous allez devoir justifier l’allocation.
  • « La deuxième chose est – je pense que je l’ai volé dans les messages d’Amazon concernant leur modèle de responsabilité partagée – est une phrase que nous avons commencé à utiliser dans un rapport d’évaluation que nous avons écrit il y a quelques mois. [It’s] cette le stockage est une ressource consommable et doit être traité exactement de la même manière qu’un consommable de laboratoire coûteux, quelque chose qui n’est plus gratuit ou illimité, ce n’est plus à la demande. Tout comme vous établissez un budget pour vos réactifs et vos kits de test et autres produits que vous achetez pour votre laboratoire. Cela signifie que les scientifiques le budgétisent, le planifient et, plus important encore, ils doivent justifier leur consommation.
  • «La troisième et dernière chose concerne la gestion des données, l’organisation des données et la conservation des données. Je vais répéter ma phrase standard; « Si vous avez un pétaoctet et que vous n’avez pas un être humain à plein temps qui gère ou conserve les données, non seulement vous perdez plus en coût de matérielet le coût de ce conservateur de données, mais vous vous préparez également à de nombreux problèmes de gestion, de découverte et de diffusion de données. Bioteam a vu plus d’environnements de stockage dans des environnements scientifiques où on a presque l’impression [the] Far West – pas de règles, pas de normes, pas de conservation, très peu de SOP. J’ai l’impression qu’en 2020, l’environnement de stockage non géré du Far West pétascale devrait être l’exception et non la règle et c’est toujours la règle. »

On dirait que la religion de la gestion des données est discutée depuis des années. Il sera intéressant de voir si des changements majeurs se produisent effectivement.

Sur le front de la technologie de stockage, Berman a déclaré: «Peu de choses ont changé au cours de la dernière année, à l’exception de cette guerre très poussée entre les systèmes de fichiers de prochaine génération, comme WekaIO et Vaste données qui ont fait un bond dans cet espace. C’est une façon différente d’aborder le stockage et l’évolutivité des données et, plus important encore, la disponibilité des E / S, en particulier dans l’architecture informatique. Ce qui est fascinant à propos de ces architectures particulières pour les sciences de la vie, c’est qu’elles aident à faire face à la grande diversité de données et aux exigences d’E / S de divers flux de travail et analyses qui proviennent de la grande diversité de la collecte de données utilisée dans notre domaine.

«Nous avons toujours dit que Luster est très difficile à utiliser car nous avons souvent des millions de petits fichiers et Luster ne le fait pas bien. GPFS ou Spectrum Scale (IBM) est légèrement meilleur si vous savez comment régler cela pour cela, et vous n’en avez pas trop. En dehors de cela, vous ne pouviez rien faire avant que ces deux choses (WekaIO et Vast Data) n’apparaissent, à l’exception du traitement de NVMe local à hautes performances dans des nœuds que la plupart des gens ne savaient pas comment utiliser.

« Cela a donc été une sorte de changement intéressant et maintenant qu’Optane (Intel) et 3D XPoint (Micron) est devenue plus courante et peut-être plus abordable. Cela se transforme en une autre chose qui peut être gênée en quelque sorte les données et l’espace d’E / S, en particulier en tant que couche de travail encore plus rapide que tout le reste. Donc, vous savez, la mémoire est lente mais le stockage local très rapide et nous testons une partie de cela maintenant. C’est un espace très intéressant qui, je pense, est mûr pour une nouvelle innovation. »

Les fournisseurs de stockage HPC DDN (Luster) et IBM (Spectrum Scale) de Mainstays détiennent toujours une part du lion du marché. Cray, désormais HPE, avait acquis la gamme ClusterStor de Seagate en 2017 et avait lancé une nouvelle version ClusterStor E1000 l’automne dernier. Berman suggère le domaine du stockage traditionnel en général et ses fournisseurs sont sous pression pour les alternatives de stockage définies par logiciel émergentes. Il dit que les disques SSD continuent de remplacer les technologies basées sur les plateaux. Encore une fois, ces tendances se poursuivent en grande partie depuis l’année dernière.

Un nouveau venu relatif intéressant est le magasin d’objets asynchrones distribués (DAOS) d’Intel qui sera utilisé dans le supercalculateur Aurora, qui sera le premier système exascale américain et basé à ANL. Il comportera des processeurs Intel et un GPU (Ponte Vecchio). Intel décrit DAOS comme «un magasin d’objets évolutif défini par logiciel open source qui offre aux applications HPC des conteneurs de stockage à bande passante élevée, à faible latence et à opérations d’E / S par seconde (IOPS)».

Berman a déclaré: «C’est trop nouveau pour en dire long sur DAOS mais le concept d’E / S asynchrones est très intéressant. Il s’agit essentiellement d’un mécanisme que au niveau de l’écriture du système, de sorte que les attentes du système dans les processeurs ne doivent pas se produire pendant qu’une réécriture confirmée provient des disques. Ainsi, les E / S asynchrones permettent aux travaux de continuer à s’exécuter pendant que vous attendez que le stockage se produise, dans une limite bien sûr. Cela améliorerait vraiment les pipelines d’entrée-sortie de données dans ces systèmes. C’est une idée très intéressante. J’aime les écritures de données asynchrones et l’accès au stockage asynchrone. Je peux voir très facilement qu’il y a de la corruption qui se glisse dans ces types de choses et de données sans séquencement très soigné. Ce sera intéressant à regarder. Si cela fonctionne, ce sera une grande innovation. »

HPCwire publiera la partie 2 dans un avenir proche.

Source: Source link

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *