La Silicon Valley Co | SwiftSummit Innovations Inc.

Si vous voulez avoir une idée de ce que les entreprises font réellement avec l'infrastructure d'IA, et des problèmes de capacité de traitement et de réseau, d'alimentation et de refroidissement auxquels elles sont confrontées, vous devez parler à certains fournisseurs de centres de données en colocation. Et donc, nous allons le faire en commençant par Colovore, qui est basé à Santa Clara, au cœur de la Silicon Valley et peut-être le pire endroit pour gérer un centre de données.

Ou, si vous le faites bien, peut-être le meilleur endroit parce que la demande des clients passe par le toit. Et c'est précisément ainsi que Ben Coughlin, co-fondateur, président et directeur financier de Colovore, le voit.

Colovore a attiré notre attention car c'est l'endroit où Cerebras Systems héberge son cluster "Andromeda" de seize de ses systèmes informatiques CS-2 à l'échelle d'une tranche, qui fournit plus d'un exaflops de calculs à virgule flottante FP16 à demi-précision pour la formation de modèles d'IA , qui est montré dans l'image caractéristique ci-dessus dans le centre de données sur Space Park Drive près de l'aéroport international de San Jose Mineta - et assez curieusement en face du magasin informatique UNIXSurplus et à deux pas des centres de données gérés par Digital Realty, Equinix, Evocative et Tata Communications.

Fondée en 2012, juste au moment où le boom de l'IA accéléré par le GPU commençait, Colovore a levé 8 millions de dollars de financement à ce jour et ne possède qu'un seul centre de données à ce jour. Le centre de données SJC01 de la société pèse 24 000 pieds carrés, qui est compact grâce au refroidissement liquide, est opérationnel depuis 2014. L'installation SJC01 a été agrandie progressivement, avec une extension de 2 mégawatts à l'intérieur de l'installation qui a été réalisée en février 2022, pour se rapprocher de sa pleine charge de 9 mégawatts. Les racks ont commencé à 20 kilowatts d'alimentation et de refroidissement, et se sont étendus à 35 kilowatts. Son centre de données SJC02, qui devrait ouvrir au deuxième trimestre 2024, occupera ce bâtiment UNIXSurplus, qu'il loue à Ellis Partners. (Il y a une métaphore si jamais nous en avons vu une. . . ) Il a environ 29 000 pieds carrés d'espace, et comme SJC01, n'offrira que des racks refroidis par liquide et éventuellement un refroidissement liquide direct si les clients le demandent. (Et nous pensons qu'ils le feront.) Les racks évoluent à 50 kilowatts dans le nouveau centre de données dès le départ.

Colovore a été cofondé par Sean Holzknecht, qui était vice-président des opérations chez Evocative et a fondé un autre opérateur de centre de données appelé Emerytech Data Center après avoir dirigé plusieurs bureaux centraux à San Francisco pour Pacific Bell. Coughlin est l'homme de l'argent et était associé chez Spectrum Equity Investors, une société de capital-investissement avec un capital de 5 milliards de dollars qui se concentrait sur les télécommunications et les médias numériques. Peter Harrison, le troisième co-fondateur de Colovore, a géré l'empreinte mondiale du centre de données de Google, son projet de fibre optique jusqu'aux locaux et le réseau de diffusion de contenu de YouTube. Harrison était directeur des opérations chez eBay et a également aidé Netflix à lancer son service de vidéo en streaming.

Coughlin nous a contactés parce qu'il voit tout le monde vouloir se lancer dans l'IA, mais ils n'ont pas tout à fait compris les problèmes de refroidissement avec ces monstres mathématiques matriciels dont ils ont besoin pour piloter les moteurs de recommandation et les grands modèles de langage. Colovore est au cœur de l'action, exploitant une installation de 9 mégawatts au cœur de l'action, qui est entièrement refroidie par liquide et prête à prendre en charge le calcul le plus dense que ses entreprises doivent mettre à profit. Nous ne parlons pas des 100 kilowatts par rack dont un énorme supercalculateur de classe exascale avec des plaques froides refroidies par liquide à connexion directe pourrait avoir besoin de nos jours, mais cela se rapproche. Et si vous en avez besoin, Coughlin a l'équipe et l'installation qui peuvent pousser cette enveloppe en plein cœur de la Silicon Valley.

Ben Coughlin : Nous suivons évidemment votre couverture de cette industrie depuis un certain temps. Et nous sommes à une intersection intéressante à Colovore parce que nous prenons en charge une grande partie de la nouvelle infrastructure d'IA ici dans la Silicon Valley - en partie parce que nous proposons un refroidissement liquide. Il y a beaucoup de discussions sur la croissance de l'IA et sur la façon dont elles innovent sur les plates-formes de serveurs sous-jacentes, mais il y a très peu de discussions sur le centre de données. La grande majorité des centres de données ne sont pas conçus pour prendre en charge ces systèmes d'IA. Si le centre de données ne peut pas le supporter, Houston, nous avons un petit problème ici.

Tout le monde considère généralement le centre de données comme un bâtiment, un bien immobilier. Pas très excitant, pas tellement amusant d'en parler, ils se ressemblent tous et se ressemblent tous. Et pour la plupart, c'est vrai. Sauf que maintenant, alors que ce type d'infrastructure d'IA prolifère, les choses vont devoir changer.

Timothy Pricket Morgan : OK, parlons-en. Vous avez un centre de données à Santa Clara, ce qui signifie que vous servez certains des clients les plus gourmands en calcul et en données qui ont compris qu'ils ne voulaient pas gérer leur propre centre de données. Vous les avez là où vous les voulez, et ils vous ont là où ils vous veulent.

Alors pourquoi diable paieriez-vous les prix californiens pour l'immobilier, l'eau, l'électricité ? Cela semble fou à première vue, mais il y a toujours cette limite à la vitesse de la lumière qui oblige certaines choses à être raisonnablement locales.

Ben Coughlin : Nous servons les startups du Fortune 500. C'est comme toute une gamme de clients, certains dépensant quelques milliers de dollars par mois, d'autres dépensant des centaines de milliers par mois. Et un certain nombre de nos clients font partie du Fortune 500 - de grandes entreprises cotées en bourse avec d'énormes capitalisations boursières qui mènent la révolution de l'IA. Mais la vérité est qu'ils n'ont pas de services informatiques capables de gérer des centres de données dans des sites distants. C'est choquant pour les entreprises de par leur taille et leur complexité, mais lorsque vous épluchez un peu l'oignon informatique de ces entreprises et que vous regardez les opérateurs techniques capables de gérer l'infrastructure, ce n'est pas aussi profond que vous le pensez. Et c'est l'une des raisons tranquilles pour lesquelles tout le monde ne se rend pas à Fargo, dans le Dakota du Nord, ou n'obtient pas n'importe quelle source d'énergie beaucoup moins chère et dans un endroit beaucoup plus facile à construire par rapport à la Silicon Valley. Et c'est pourquoi il y a encore beaucoup de demande locale.

MTP :Quel pourcentage de l'infrastructure que vous avez actuellement sous gestion à SJC01 est de l'IA ?

Ben Coughlin : Si j'évalue mon nombre d'unités de rack sur tous les serveurs du centre de données, l'IA représente probablement 80 %. Nous avons des gros systèmes avec des milliers de GPU fonctionnant ici.

MTP : OK, cela signifie que je n'ai pas à mettre fin à cet appel maintenant. Ce qui est bon.

Ben Coughlin : Lorsque nous avons lancé les entreprises il y a dix ans, nous exploitions tous des centres de données depuis longtemps. Et la chose que nous voyions il y a des années était ceci. Avec les lames et les environnements virtualisés, les plates-formes de serveurs devenaient en quelque sorte plus petites et plus puissantes, vous pouviez condenser l'empreinte et faire plus avec un espace physique plus petit. Et nous avons compris que cela allait nécessiter de l'alimentation dans une armoire et plus de refroidissement dans une armoire. Personne n'a vu venir toute cette révolution de l'IA, mais parce que nous avons commencé à faire du refroidissement liquide dès le premier jour, nous étions prêts.

Voici le problème : en fin de compte, il s'agit vraiment de refroidir l'intérieur du centre de données. Vous pouvez toujours fournir plus de circuits électriques à un emplacement. Et c'est sur cela que nous nous sommes concentrés.

MTP : Attends une seconde. Je pensais que vous les gars dans la vallée et dans d'autres endroits comme Ashburn en Virginie étaient limités en puissance, et aussi qu'il était de plus en plus difficile d'obtenir plus de puissance dans les racks même lorsque vous pouvez la faire livrer au bâtiment ?

Ben Coughlin : Pas vraiment. Silicon Valley Power, en tant que service public, a certaines contraintes – pas tout à fait comme ce qui se passe en Virginie du Nord, où ils ne peuvent littéralement pas donner plus de puissance. Si vous souhaitez tirer plus de puissance vers l'emplacement dans le centre de données, vous pouvez généralement le faire. Le problème est de savoir comment gérer la chaleur.

MTP : J'ai lu les spécifications sur la puissance que le centre de données SJC01 pourrait fournir aux racks - où vous avez commencé et où vous en êtes aujourd'hui. Je pense toujours que 100 kilowatts, c'est beaucoup pour un rack à gérer, à la fois pour des raisons de refroidissement et d'alimentation. Que font réellement les gens ?

Ben Coughlin : Permettez-moi de vous donner les éléments de base. La plupart des centres de données courants prennent en charge 5 kilowatts dans une armoire.

MTP : C'est stupide. Un CPU pousse 400 watts et un GPU pousse 800 watts.

Ben Coughlin : Hé, crois-moi, tu chantes notre chanson. Mais il y a dix ans, un serveur typique était peut-être de 250 watts, et un processeur de serveur était peut-être de 75 watts, peut-être parfois de 100 watts.

MTP :Ouais, je me souviens quand les gens paniquaient qu'un processeur brûlait plus de jus qu'une ampoule à incandescence, et maintenant, c'est comme s'ils étaient un sèche-cheveux et nous ne bronchons même pas.

Ben Coughlin : Lorsque nous avons ouvert les portes pour la première fois, nous avons construit chaque rack pour gérer 20 kilowatts. Puis, quelques années plus tard, lorsque nous nous sommes développés et avons mis en ligne notre prochaine phase, nous avons construit à 35 kilowatts. Maintenant, nous soutenons 50 kilowatts. Donc, juste dans notre évolution au cours de la dernière décennie, nous sommes allés en interne pendant 20 à 35 à 50 ans. Et nous pouvons fournir 250 kilowatts par armoire. C'est vraiment une fonction de ces plates-formes et de la façon dont elles sont refroidies. Ce sont des systèmes à refroidissement direct par liquide, nous en avons un certain nombre en fonctionnement. Certains laissent tomber 35 kilowatts ou 50 kilowatts dans une armoire, mais nous concevons et déployons actuellement un client qui a au nord de 200 kilowatts par armoire. Et non, ce n'est pas du cryptomining, qui est une clientèle terrible.

MTP : Je ne pourrais pas être plus d'accord. Si vous voulez démarrer une nouvelle monnaie, rendez-vous avec Elon Musk sur Mars. Je vais vous aider à faire vos valises et vous conduire à la rampe de lancement. . . .

Ben Coughlin :Ce sont toutes de vraies charges de travail d'IA provenant de vraies entreprises.

MTP : Vous n'êtes que dans la vallée. Comment se fait-il que vous n'êtes pas dans d'autres endroits?

Ben Coughlin : Vous savez, une étape à la fois. Nous sommes rentables et nous grandissons. Je suis dans la Silicon Valley depuis longtemps et je connais le modèle de capital-risque de croissance à tout prix. Ce n'est pas notre approche.

Mais en ce qui concerne votre point, parce que nous voyons l'IA passer du prototypage aux premiers essais et à certains déploiements, nous voyons les clients passer à plusieurs armoires. Tout se développe assez rapidement, c'est pourquoi nous construisons un autre site à côté. Au-delà de cela, je pense que notre prochain mouvement serait un peu hors du marché, mais toujours de nature régionale. Alors peut-être qu'on monte à Reno, il y a une zone où l'électricité est moins chère, mais c'est quand même relativement local. Le nord-ouest du Pacifique est un bon endroit pour nous. Mais nous n'allons pas planter un drapeau dans chaque ville de la NFL et devenir fous. Un pas après l'autre. . . .

MTP :Je connais un tas d'entreprises qui croient cela, et pour l'informatique de pointe, je dirais, comme le fait VaporIO, qu'elles devraient être dans toutes les villes de la NFL, car les tracas liés aux permis et à la construction d'un réseau de périphérie sont immenses.

Sujet différent : Quelle part du marché des centres de données ira en co-lo ? Je pense que cela pourrait être un tiers dans le cloud, un tiers sur site et un tiers co-lo dans la plus longue des séries.

Ben Coughlin : C'est une bonne question. Je dirais que c'est plus grand que vous ne le pensez, et voici la partie dont vous devez vous souvenir. De l'empreinte du cloud – et je ne sais pas exactement quel est le chiffre – mais environ 0 à 40 % de leurs centres de données cloud fonctionnent en fait dans des installations en co-lo que ces gros joueurs louent. Ils construiront leurs propres centres de données sur des marchés où l'électricité et les terrains sont très bon marché et ils pourront y acheminer le trafic. Mais ils louent de la capacité auprès de fournisseurs de co-lo dans les grands métros, car cela n'a pas de sens pour eux de dépenser tout cet argent et de payer cette prime pour l'espace et l'électricité.

Mon argument pendant des années était que les nuages n'étaient pas la solution miracle pour les co-los. Nous avons toujours dit qu'il s'agissait en fait d'une marée montante. Oui, certaines personnes prendront la décision de ne faire que du cloud pur. Mais encore une fois, un tas de ces fournisseurs de cloud utilisent des co-los. . . .

MTP : J'ignorais ce phénomène et je pensais vraiment aux Global 20000 qui ne gèrent pas leurs propres clouds et fournisseurs de services, et je réfléchissais à ce qu'ils pourraient faire. Personne ne va passer de sur site au cloud, puis rapatrier sur site. Ils vont revenir à moitié à un co-lo, je pense, lorsque les dépenses liées au cloud deviendront trop élevées.

Ben Coughlin : Tout d'abord, tous nos clients sont hybrides. Ils utilisent le cloud pour certaines applications et co-lo pour certaines applications. C'est vraiment une sorte de multi-plateforme. Avec l'IA en particulier et ces types de charges de travail, le cloud a certaines limites - et ce n'est pas seulement le coût. Tout le monde sait que le cloud coûte très cher. Mais ce n'est qu'une variable, même si elle est très importante.

MTP :Combien moins cher pouvez-vous faire de l'IA pour vos clients ?

Ben Coughlin : Sur une base mensuelle, la plupart de nos clients économisent de 50 à 70 % par rapport à leur facture cloud mensuelle. Il y a un investissement initial lorsqu'ils achètent leur équipement, mais ce retour sur investissement peut se faire en seulement trois à six mois. Ainsi, l'économie est aussi claire que le jour que le retour sur investissement est énorme.

Si vous ne regardez que les aspects financiers, le cloud n'a pas de sens pour ces types de charges de travail d'IA. Mais encore une fois, il existe également d'autres variables : vous devez avoir les compétences nécessaires pour gérer votre infrastructure. Le personnel de beaucoup de ces entreprises de cloud computing est composé d'enfants de 20 ans qui n'ont même jamais touché à un serveur et ne savent même pas comment cela fonctionne. Certaines personnes ont le truc CapEx-OpEx. La latence en est un autre, et pour l'IA, nous considérons la latence comme un gros avantage pour les co-los. Les gens parlent de voitures autonomes et de ChatGPT, ce qui est bien, mais cela ne représente qu'une très petite partie de la charge de travail de l'IA. Mais pour les applications en temps réel, il n'est pas idéal d'utiliser le cloud, d'avoir cette infrastructure résidant au milieu du pays, et vous devez faire des allers-retours. La latence est importante pour certaines de ces applications. Le cloud n'est donc pas parfait pour les trucs d'IA pour un certain nombre de dimensions différentes.

Voici la chose. Quoi que vous fassiez, vous avez besoin de cette densité de moteurs de calcul dans les métros, car c'est là que les données sont générées. C'est là qu'il doit être analysé et stocké. Et la meilleure façon d'y parvenir est de faire en sorte que ces centres de données correspondent à ce qui se passe avec la plate-forme de serveur, ce qui la rend plus petite et plus puissante. En fin de compte, ce que nous faisons, c'est imiter ce qui se passe sur ces serveurs. Nous réduisons simplement le centre de données et nous le rendons globalement plus efficace. Et nous tirons parti de l'eau pour le faire. Nous n'avons pas besoin de construire ces, vous savez, des Cadillac de centaines et de centaines de milliers de pieds carrés.

Nous avons un exemple parfait juste en face de nous dans une installation Digital Realty, qui compte six étages et 150 000 pieds carrés. Nous faisons 25 000 pieds carrés, nous avons exactement la même puissance qu'eux. Ce qui signifie qu'ils sont, pour la même quantité de calcul, 6 fois plus grands que nous.

MTP :Quel est votre coût incrémental et quel est le coût incrémental répercuté sur le client ?

Ben Coughlin : C'est moins cher. Il y a une autre erreur. Parce que généralement, lorsque vous construisez des centres de données refroidis par air, c'est en quelque sorte linéaire : si j'ai plus de capacité, cela me coûte plus cher. Mais parce que l'eau est un moyen de refroidissement si efficace et qu'elle a une telle capacité, vous n'avez pas besoin de continuer à construire de plus en plus. Il y a là des économies d'échelle. Ainsi, lorsque nous examinons nos coûts pour fournir un mégawatt d'énergie critique consommé par le client, nous sommes 30 % moins chers que l'industrie car notre empreinte est plus petite.

L'autre chose dont vous devez vous souvenir est que dans notre industrie des centres de données, beaucoup de géants sont des professionnels de l'immobilier. Ils ont construit des bâtiments et ils savent comment construire leurs bâtiments et gérer leurs centres de données d'une manière qui leur convient. Et quand ils construisent à cette échelle, ils ont une approche et c'est ainsi qu'ils les éliminent. Ils ne sont pas les plus agiles en termes d'intégration de certaines de ces nouvelles technologies comme le liquide dans le centre de données. Alors, ce qui pour vous et moi semblait très logique et nécessaire - le refroidissement liquide dans le centre de données - les fait réfléchir. Nous commençons cependant à voir quelques fissures. Digital Realty, lors de sa dernière conférence téléphonique trimestrielle, a finalement déclaré que ce matériel à haute densité devenait important dans nos centres de données.

En attendant, nous continuerons à avancer sous le radar et continuerons à construire progressivement et à aller dans la bonne direction.

MTP :Dernière question : si je voulais faire du refroidissement liquide direct dans mes systèmes, pouvez-vous le faire ou non ?

Ben Coughlin : Nous avons plusieurs mégawatts en cours d'exécution aujourd'hui avec des serveurs à refroidissement liquide direct utilisant différentes méthodologies. Il existe de nombreuses façons de dépecer ce chat.

À ce jour, ce que nous avons vu, c'est que les chasses de serveur elles-mêmes sont refroidies par liquide, exécutant leurs propres échangeurs de chaleur en interne et donc nous livrons de l'eau au châssis, puis il la gère à l'intérieur. Nous constatons un intérêt accru pour les plaques froides, permettant à l'eau d'être distribuée encore plus profondément dans le système. Et c'est un peu le Far West en ce moment. Pour être honnête, à l'heure actuelle, il n'y a pas eu de grande standardisation car ce n'est que le début.

L'important, c'est que nous ayons l'eau et les tuyaux pour pouvoir la distribuer. Si vous venez dans notre centre de données et que vous regardez sous le sol, nous avons trois ou quatre pieds de tuyauterie là-bas.

Mais c'est la partie la plus délicate de tout cela, que les gens ne comprennent pas très bien et je pense que cela pourrait être intéressant pour vous. Il y a de l'eau dans tous les centres de données. Les climatiseurs fonctionnent à l'eau. Il ne s'agit pas seulement d'y amener de l'eau – vous devez filtrer l'eau et ajouter des produits chimiques et vous assurer que l'eau est pure pour qu'il n'y ait pas de corrosion. Mais la chose la plus importante lorsque vous distribuez l'eau, c'est que vous devez prendre de nombreuses décisions sur la taille de vos tuyaux, quel est le débit de l'eau, quelle est la température de l'eau, et tout cela a un impact direct sur ceux refroidis directement par liquide. plates-formes.

Et donc une fois que vous entrez dans le vif du sujet de la gestion de l'eau, il y a beaucoup de décisions que vous devez prendre sur ces variables. Et cela nous ramène au commentaire que j'ai fait au sujet des normes. Si vous avez l'un de ces fournisseurs de CDU disant qu'il veut de l'eau ultra-rapide dans des tuyaux minces, des trucs à haute pression à une température très froide, cela nécessite une configuration d'infrastructure. Si quelqu'un d'autre dit, donnez-moi simplement une grande rivière paresseuse, comme un débit lent à une température plus modérée, cela nécessite autre chose. Si vous avez l'un ou l'autre, il n'est pas si facile pour le centre de données de changer d'approche.

Heureusement, notre système est du type rivière paresseuse à plus gros tuyaux, et ce que nous avons vu jusqu'à présent avec la plupart des plates-formes de refroidissement a opté pour des apports d'eau à faible débit.

Avec les faits saillants, les analyses et les histoires de la semaine directement de nous dans votre boîte de réception, sans rien entre les deux.Inscrivez-vous maintenant

Ben Coughlin : Timothy Prickett Morgan : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin : TPM : Ben Coughlin :