在古典工匠技藝的時代,揮鞭前進的是英特爾及其所發(fā)揚的摩爾定律。 年后,為了追求技術,進入了深度學習的新時代,但1993年創(chuàng)立的NVIDIA成為了強大的黑馬。
NVIDIA經(jīng)過工藝深度培訓平臺取得的立場差異,很多已經(jīng)成為世界標準。 我們以遠遠超出摩爾定律的速度迅速增加了護理功能,促進了安康、交通、科學探索等無數(shù)規(guī)模的突破。 在一次演講中,創(chuàng)始人兼首席執(zhí)行官黃仁勛( jensen huang )對孤高、成千上萬不雅觀的觀眾說。
去年,站在統(tǒng)一的舞臺上,黃仁勛說想找到摩爾定律之后的道路。 以神經(jīng)收集為基礎的人工智能,爆炸式增長經(jīng)過一年已經(jīng)有五年了。 在這五年中,gpgpu (通用圖形處理器)成為了人工智能研發(fā)的利器,因在意密集型的進修使命而獨步全國。 據(jù)NVIDIA稱,與5年前的ferml gpu架構相比,新一代volta gpu架構的浮點護理提升了25倍。
摩爾定律是十年五倍,黃仁勛說這是超越摩爾定律的說明。
NVIDIA開發(fā)者社區(qū)的擴大很敏捷,印證了黃仁勛大膽的聲明。 據(jù)該企業(yè)統(tǒng)計,gpu開發(fā)者今年將達到82萬人,比5年前增加5倍。 使用NVIDIA GPU開發(fā)所需的并行護理體系結構套件cuda下載量達到800萬,其中約一半在曩昔的一年間下載。 不僅如此,該公司提供的gpu加速技術也被世界許多超級機器接受,其volta gpu在美國summit和sierra兩大超級計算中增加了約100 pflops萬億次的浮點計算才能)。
在美國時間3月27日的NVIDIAGPU工匠技藝大會( gtc )上,該公司帶來了許多在深度學習、主動駕駛、機器人規(guī)模上掀起足夠浪潮的新產物。 其中重要的是一年一度的新型核彈級顯卡,這次不是gtx 11系列,也不是傳言中非常嘈雜的礦卡,而是黃仁勛被稱為桌面超市等熱門機器的事務所nvidia dgx-2。
dgx-2是專門用于人工智能練習和推理任務的臺式機護理機。
這是其內部結構:
如你所見,圖中1和2的位置看起來像良多芯片。 其實他們是NVIDIA的tesla v100 volta架構gpgpu,單一的計算力達到雙精度7.8 tflops (兆次浮點計算)、單精度15.7tflops、深度研修125tflops。
另一方面,dgx-2單機箱搭載16枚v100,整體功能達到了驚人的2pflops行業(yè)首款擁有1萬億次浮點計算能力的單機箱計算機,將其稱為超級計算機也許并不夸張。
但是,dgx-2的計算能力不是堆棧,如果在它們之間不能實現(xiàn)高帶寬的數(shù)據(jù)相互通用的例子就沒有意義了。
時間回到兩年前,NVIDIA提出在經(jīng)過深入培訓的設備市場直接挑戰(zhàn)英特爾,推出了pascal架構的p100 gpgpu。 當時,主流辦公設備pcie總線接口的帶寬和延遲已經(jīng)不能滿足NVIDIA的訴求。 因此,我們開發(fā)了一種新的設備內互聯(lián)標準nvlink,并將帶寬提高到300 gb/s。 在1個8枚gpgpu的體系中,nvlink大致如下。
但是,nvlink的標準拓撲結構理論上支持8塊顯卡,不足以滿足NVIDIA支持新系統(tǒng)中內置的越來越多的顯卡的必要性。 因此,作為nvlink的根本,NVIDIA開發(fā)了在名為nvswitch的顯卡之間完成nvlink使命的協(xié)處理器。 該元件在dgx-2上,在16枚gpgpu中的2個之間實現(xiàn)了nvlink互通,總帶寬超過了14.4 tb。
這個數(shù)字創(chuàng)造了桌面級計算機內總線接口帶寬的新記錄,但實現(xiàn)這個的目的不是跑步,而是dgx-2要1 )更快地練習高度復雜的神經(jīng)收集,2 )以及許多非結構的神經(jīng)收集
NVIDIA的黃仁勛,背景是NV開關的形象
n卡之所以被稱為核彈,是因為有一個替代的解釋編排。 其多焦點架構在基于這個焦點數(shù)論凹凸不平的時代,看起來像是聚焦了成百上千個cuda的焦點,很不可思議。 另一方面,在dgx-2上,16枚v100的cuda核數(shù)達到了瘋狂的81,920焦點。 這個現(xiàn)實與NV交換機的技術、512gb的現(xiàn)有、30TB的nvmeSSD、2個XeonplatimumCPU、最大1.5tb的主機存儲器相連接
黃仁勛以gpu深度培訓里程碑式的杰作alexnet為例。 研究人員alex krizhevsk在NVIDIAGPU上練習了Alex網(wǎng)絡6天。 該研究在首次的抓取梯度下降法和卷積神經(jīng)采集停止護理機圖像識別中,明顯優(yōu)于以往的手動參數(shù)法,獲得了imagenet圖像識別比賽。 alexnet讓alex世界聞名,這六天可以說是值得的。
但是,同樣是8層的卷積神經(jīng)收集,我用dgx-2跑了一下,只花了18分鐘就達到了同樣的效果。 黃仁勛說,五年,前進了五百倍。
這說了很多工具。 其一,在這五年中,NVIDIA的技術前進節(jié)奏無法用摩爾定律來表達。
dgx-2的主要應用場景是明顯加快高端科學研究和商業(yè)人工智能產物的研發(fā)和上市。 那顯然不是喪的產品,達到了150萬美元的售價
開玩笑的。 售價為40萬美元
但是,即使是40萬美元的不含稅成本,也壓倒了手頭拮據(jù)的工業(yè)顧客。 不要擔心。 dgx-2只是被今天的人工智能規(guī)模所NVIDIA的幾個新產物之一。 其他包括:。
1 ) dgx機箱中的v100 gpgpu升級版,內存升級到了32 gb。 只需要單一或少量顯卡的研究者們,可以致力于獲得體臭,練習更多復雜的神經(jīng)收集:
2 )為囊括電影視覺、建筑設計等創(chuàng)意產業(yè)而發(fā)售的quadro gv100顯卡產品。 quadro gv100是事務所的顯卡,里面有兩張v100 gpu。 該顯卡支持NVIDIA的新光線跟蹤技術nvidia rtx :
3 ) nvidia rtx )如上所述,NVIDIA開發(fā)的極其復雜且集中的光效技術。 簡單地說,像現(xiàn)實世界一樣,由于許多光源混雜,許多復雜的狀況,光照射到材質不符的物體上而導致的散失,或者物體對光源或其他物體,由于曲面、球面乃至犯警規(guī)則的概況而產生的反射,或者光源照射到玻璃上
4 ) tensorrt 4、新一代tensorflow推理工具gpu與美國科技企業(yè)去年發(fā)布的深度學習兼容框架標準onnx兼容終于可以用Kubernetes(k8s )處理NVIDIAGPU了,aws、NVIDIAGPU
5 )新的活動驅動器汽車解決方案orin。
6 )駕駛偽裝模仿工匠藝drive sim constellation。 這是一項很幽默的技術,可以模仿NVIDIA和其他開放平臺的科技企業(yè)在gpu主動駕駛汽車進行練習,從而明顯降低開放式實訓的危險性。 這個工匠技能還有一個奇怪的用例。 訪問這個平臺的汽車將來可以進行長距離駕駛。 黃仁勛示范司機在會場,用vr頭和方向盤長途駕駛,車躲起來停滯不前,停車成功。 硅星人之后將停止對這項技術進行秘密探索。
7 )機器人開發(fā)了開放式平臺issac,擁有高精度地圖制作等NVIDIA集成在主動駕駛中的技術。
8 )項目Clara,云醫(yī)療診斷的項目。 該項目很幽默,簡單地說,NVIDIA醫(yī)院提供了基于云的醫(yī)療圖像識別超算。 一個場景是進入心臟b超的實時視頻流,云顯卡可以使用練習的神經(jīng)收集,將畫面變?yōu)槿S體積圖像,實時高亮器官,生成更自由難看的三維畫面。 現(xiàn)場演示的影像中還出現(xiàn)了內臟器官功能的實時數(shù)據(jù),囊括了每次搏動的泵出血量等,加深了印象。
硅谷是t恤和拖鞋控制的地方,但NVIDIA創(chuàng)始人黃仁勛在這里變化很大。 穿著皮夾克的他以技術人員的身份負責市場。 演講一開始,沒有其他許多科技大佬特有的空虛氣氛。
在gtc,你可能會覺得自己的氣氛還不夠,但他直接站在椅子上接受了記者的提問; 雖然他參加過公關練習,但回答問題時的懇切程度依然在科技大佬中很奇怪,直接問旁邊的公關是不是也想打斷我? 但是我已經(jīng)結束了。 被稱為核彈教父的黃仁勛,名副其實。
他沖進常見的x86框架服務堆棧,一個機柜有幾十臺工作人員,十幾個機柜的總本錢高達幾百萬美元。 而且,要獲得同樣深度學習的練習局,幾臺、十幾臺v100、或者一臺dgx-2,至少需要6位數(shù)的成本。 所以,他在演講中頻繁地對臺下不雅觀的觀眾說:“多買一些比較劃算?!?( the more you buy,the more you save.) ) gpu工匠技藝前沿的演講幾乎變成了電視購物。
watch now cause here i come .是黃仁勛上臺前溫馨歌曲的歌詞。
至少在今天,以摩爾定律為基礎,黃仁勛和他的NVIDIA看起來沒有勢頭。
標題:“英偉達發(fā)布8萬核桌面機!核彈教父勢不可擋”
地址:http://www.paulsmart.net/lyzx/32453.html