设为首页收藏本站 关注微博 关注微信

全球新闻在线

全球新闻在线 首页 科技新闻 数码科技 查看内容

华夏第一大AI芯片问世!能组一种高级超算集群

2021-7-8 16:08| 发布者: wdb| 查看: 48| 评论: 0|原作者: [db:作者]|来自: [db:来源]

摘要: 华夏第一大AI芯片问世!能组一种高级超算集群,更多数码科技资讯关注我们。

  今日,华夏第一大AI单芯片邃思2.0在上海正规发表,该款芯片面向AI云端训练,大小为57.5mm×57.5mm(面积为3306毫米2),达到了芯片采纳的日月光2.5D封装的极限,与上代产物一样采纳格罗方德12nm工艺,单精度FP32算力为40TFLOPS,单精度张量TF32算力为160TFLOPS,整数精度INT8算力为320TOPS。

  燧原科技创始人兼 COO 张亚林叮嘱雷锋网:“鉴于邃思2.0芯片塑造的云燧T20提速卡扶持的集群范围从上一代云燧T10的千张卡提高至8000卡,用云燧T20可行塑造一种E级单精度算力集群CloudBlazer Matrix 2.0。”

  E(Exascale)级计算也便是百万兆级的计算,是日前全世界顶尖超算体系新的追逐指标。用一种不精准的说法来解释百万兆级计算,一种百万兆级计算机一刹那发展的计算,差不多于地球上全部人每天每秒都不断地计算四年。

  那号称华夏第一大AI单芯片,有何特点?竞争力到底如何?

  华夏第一大AI计算单芯片的两个“首个”

  2019年底,燧原科技发表了从发动名目研发到发表用时仅18个月的云端训练芯片邃思1.0,鉴于邃思1.0的云燧T10提速卡单精度算力多达20TFLOPS。时隔一年半,邃思2.0和云燧T20就推向市场。之是以说“就”,是由于云端训练这样繁杂的超高算力芯片平常的迭代周期是两到三年一代,假如遇上特殊概况可能还会延迟半年。

  “咱们第一代和第二代产物的迭代节拍快于业内速度,最重要的有两方面的原因,一方面是首代产物落地后获得了使用者的反馈,另一方面是咱们里面技艺和架构的革新,催生了第二代产物。”张亚林说,“从一最初咱们就重申精确执行产物路线图,第二代产物精确适合燧原的产物路线图。”

  至于燧原未来能否会维持云端AI训练芯片一年半一代的革新速度,张亚林显示日前暂不方便显露,但会精确执行其产物路线图。

  想要在全个产业缺芯的大背景下精确执行产物路线图赫然是一种庞大的挑战,雷锋网理解到,在2020年疫情最初的时刻,燧原准备了两套方案,同一时间发挥团队成员超越15年以上产业经历的优势,以及第一代产物开发进程中构建的供给链关连,终归确保产物的依期公布。

  张亚林说:“燧原的全个供给链十分稳健,消费者不必担忧燧原产物的供货难题。”

  在路线图精确下,为何要把芯片面积做大?张亚林解释,燧原做芯片是高举高打,做大芯片和高档芯片是咱们追求的指标,芯片的大小尺寸背后代表的是科技含量,关于华夏芯片产业的奉献才是很大的价格表现。

  但很大的芯片面积,就代表着更高本钱。对此,张亚林显示:“一种老练的产物必需考量回报率(ROI)。咱们须要做的是在定义产物时,计算好这种产物在市场上的全体收入和销售数量,从全个产物的本钱方位和能够带给消费者的价格定义产物。是以咱们会持续关心前沿技艺,但不会一味追求全新的技艺,依旧从芯片的功能、本钱、功耗三方面考量。”

  邃思2.0的特性中,有两个华夏首个,一种是首个扶持TF32精度的AI芯片,另一种是首个扶持最领先进步内存HBM2E的产物。

  AI业界一直在追求用更小的数据位宽实现更高的模子精度。因而,AI模子不停改良,数据类别不停推新,AI芯片作为底层支撑就须要在扶持更多半据类别的同一时间消耗更低能耗。

  TF32代表的是张量单精度32位数据类别,比较惯例的FP32,TF32在位宽很大的同一时间,消耗的带宽以及计算资源明显更小,被业界视为能够取代全大小单精度数据的更新性数据精度。

  “日前业界的判断是,TF32对多数AI情景都有利用潜力。咱们紧跟世界创新者的步伐,很早就布置数据进度的探讨和剖析,是以才有了燧原第二代产物就扶持TF32精度。”张亚林同一时间指明:“邃思2.0扶持全精度AI精度范畴,包括FP32、TF32、FP16、BF16和INT8。要用一种十分革命性的算力引擎囊括全部的精度,而且能够做到全部的精度的算力都有用,这是十分大的挑战。”

  打破算力与存储之中的阻碍,高效应用数据是AI芯片的另一大挑战。在国家内部第一大的AI计算单芯片中,集成了4颗三星HBM2E,扶持最高64 GB内存,内存带宽最多达1.8 TB/s。

  “HBM2E是日前全世界最快的存储芯片,经过集成4颗HBM2E,邃思2.0可行实现算力和存储带宽的配合,实现更强算力。咱们一直努力把理论算力和理论带宽配合,有用操控全个产物的本钱。采纳全新的技艺其实不会使咱们产物的全体具有本钱增添。”张亚林显示。

  在燧原的产物理念中,更没有问题AI芯片不过建立AI体系的根基,消费者最关注的却非底层AI芯片的参数。

  AI芯片的比拼上升到体系级

  “消费者其实不会干脆关注芯片层次的理论参数,AI落地的时刻,它们更看重的是包括硬件、软件、互联的全体解决方案的有用应用率。是以咱们曾经从单芯片的维度进级到了更高的体系层次。这也是燧原公布整机多卡、多卡互联、分布式软件、云端部署的一整套交钥匙解决方案的原因。”张亚林说道,“咱们也更重申经过低碳绿色化的云燧智算集群效劳消费者。”

  AI芯片的比拼要进级到AI体系的比拼,从使用者方位,对照AI体系的维度就会包涵五个:软硬件一体的性价比、能效比、易用性、迁移本钱、范化性。

  既然是体系,互联技艺十分要害。日前,业界经过不同的远程干脆内存访问技艺(RDMA)发展互联,例如InfiniBand、iWARP、RoCE。燧原采纳的是自研GCU-LARE互联技艺实现云燧AI提速卡的多卡集群互联,同一时间兼容业界其余RDMA技艺便于与其余体系互连。

  据推荐,燧原自研的GCU-LARE多卡集群互联技艺,扶持6个带宽50GB/s的卡间传输端口,总带宽达到300 GB/s。

  GCU-LARE具有两大特点,一种是不要惯例互联技艺的接连卡或桥接卡,可行干脆经过线缆的形式直连,下降本钱。另一种是能够依据使用者的要求和机房的实质概况,定制不同的拓扑构造,能够轻松建立4000卡以上的大型训练集训拓扑,实现定制化集群产物CloudBlazer Matrix。

  在云燧T20的发表会上,燧原发表了云燧智算集群 CloudBlazer Matrix 2.0,最高可实现1.3E(130000T)的单精度只能算力集群。

  “云燧的互联接口在单口速度维持不变的前提下,接口数量从T10的4个增添到T20的6个,带宽提高150%。用云燧T20可行塑造华夏E级单精度算力集群。”张亚林显示。

  “在软件易用性和迁移本钱方面,咱们投入了大批精力。”

  与云燧T20一同发表的另有软件平台驭算2.0,发展了多方面提高,包括:为使用者提供高度契合业界准则的编程接口,以扶持高功能自定义算子开发;周全改良的动态性模子扶持;导入业界领先进步的MLIR编译构架;鉴于启发式自适应方法的算子泛化实现以及图改良战略,可行广大扶持更多准则模子和自定义模子训练。

  张亚林推荐:“驭算2.0的要点是提高易用和泛化,同一时间也能下降迁移使用者的本钱。咱们的产物从第一代最初就采纳的热发动的形式下降使用者的迁移难度和本钱,也便是在发展硬件架构设置的时刻就曾经考量了消费者的要求,在落地的时刻获得了消费者认可。现在第二代产物,同样采纳热发动的方法,运用更多的使用者反馈进一步下降迁移难度和本钱。”

  “在软件层次,此刻业内相比通用的两个AI构架是TensorFlow和Pytorch,假如它们的模子十足鉴于构架开发,变换到燧原的产物只要要硬件变换,软件可行没有缝变换。软硬件必定是一体化,也唯有软硬一体化设置才对消费者有更高价格。”张亚林进一步显示。

  因而,驭算2.0还扶持资源虚化、重组以及体系级设施虚拟化,运用户在营业部署和资源整合上可具有更为灵活的方法;扶持4000卡范围以上的集群分布式训练;进级体系兼容性方案、部署方案和RAS,扶持主流操作体系全新发型版,开箱即用,简单化消费者定制体系集成,对消费者的部署和运维愈加友好。

  实质上,芯片实力的比拼从来都非是单芯片的比拼,却是体系和生态实力的比拼。纵观日前全世界前几大芯片巨头,持续迭代的芯片不过其维持竞争力的根基,围绕芯片的互联技艺、软件栈以及不停拓展的生态才是竞争的护城河。

  燧原既然曾经从单芯片的能力拓展到体系层次,那如何挑战云端训练芯片的霸主英伟达?

  聚集三个营业群,与霸主差异化竞争

  “作为一种追赶或许新生者,差异化竞争是势必的。燧原发展差异化竞争时一直注重三个部分,第一是咱们提供的算力性价比必定要越来越好,第二是华夏有最丰富的营业情景,也有最丰富营业情景运用者,是以咱们与最丰富的营业情景做更多深入的联合,并进一步做营业情景的泛化,第三便是原土化、定制化、消费者的效劳开发。”张亚林说。

  除此之外,燧原还经过与之江实验室、上海交通大学、西安交通大学等高校的合作,建立生态的同一时间培育能人。

  关于与国家内部和世界巨头的竞争,张亚林的态度是,“日前对国家内部芯片产业的进行是天时地利人和,咱以为国家内部半导体和AI赛道百花齐放是好事,咱们会坚持本人,志存高远、脚踏实地。追赶世界巨头,作为华夏芯片企业有市场、政策和资金的优势,咱们的普惠智能算力不过第一步,未来燧原会在异构计算范畴不停拓展产物线,提供更多异构计算的全体解决方案。

  小结

  芯片功能参数的提高是最简单感知和了解的产物进级,但这却非是芯片企业最强盛的竞争力所在,围绕芯片建立的接口、准则、互联技艺,以及软件栈、消费者认可、合作伙伴生态才所以芯片为焦点建立竞争力企业的终极指标。

  这也是在AI时期许多芯片初创企业宣称的算力超过产业领导者,却未能得到大批定单的要害所在。很没有问题景象是,曾经有以燧原为代表的AI芯片初创企业,最初去重申AI算力体系的价格。

要害词 : 芯片集群AI
咱要反馈
全球科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关心)