OCS适应这种谷歌TPU等推理架构
因为天然的这些数据流向,都是设置好的,固定输入固定输出,CPO就是天然适合英伟达这种高速的GPU互联的,他能跟着数据流量变。调整传输路径的速度很快,灵活性很高,本质是电交换机去做光引擎全光互联。而OCS是他本身就是光交换机,而取代了电交换部分。
OCS和CPO的最大区别就是切换数据响应的时间。我这里可以给大家直观的对比,OCS是毫秒级响应,对比 3个方案都是在几十毫秒到几百毫秒之间。
而CPO是纳秒级别,这种数据中心传输是非常重要的。
所以OCS只能作为谷歌TPU等推理架构的特定产物,随着这个TPU芯片的出货量,OCS的交换机是能得到起量的,对应的就是这个TPU芯片的量级。
有消息称英伟达也在购进这个OCS交换机,我确认过这是真的。英伟达并不是把OCS作为CPO的竞对去测,而是两者作为一个协同补充。
例如把OCS交换机,放在数据中心机柜中,在AI服务器和LEAF交换机中间多加一层,作为保险放OCS交换机,未来发生故障的时候,通过临时启用这层交换机,可以在故障维护时期顶过这一段时间,保证数据机房能持续运行。
英伟达那边测算过,这样通过额外多加一层交换机去做双保险,其实折算下来故障率的话,是能够赚回来的。
因为停机维护的成本很高,通过这样的设计,可以让机房故障维护反应时间拉长,L1层动态可重构大幅提升故障收敛时间:小时级切换成秒级,提升维护可靠性。
最后就是这个OCS对光模块的影响
其实虽然说是有一部分是替代掉,但是OCS交换机替代掉的是电交换机的市场,把全光互联推进了。
从这一个角度来说对光互联光模块都是好事,而且这类OCS交换机的对应光模块是需要定制的,单价会高很多。
谷歌就在找中际定做这一批光模块,价格对比是普通的500,定制的会贵很多,因为要适配OCS交换机。
所以总结就是,OCS和CPO都有自己发展的空间,而且不会影响彼此,更多是携手共进,推进全光互联,参与光互联的业务的企业,都是两边都能吃到一杯羹的,所以都是好事。


注:此文仅代表作者观点
