Dil modelleri için seyrek modeller ve ucuz SRAM • Kayıt


Önde gelen büyük ölçekli dil modelleri ne kadar zorlayıcı olursa olsun, yalnızca en büyük şirketlerin bunları anlamlı ölçekte dağıtmak ve eğitmek için kaynaklara sahip olduğu gerçeği değişmeden kalır.

AI’dan rekabet avantajı elde etmeye istekli işletmeler için, özellikle belirli sektörlere veya alanlara göre ayarlanabiliyorsa, daha ucuz, küçültülmüş bir alternatif daha uygun olabilir.

Bir niş oluşturmayı ümit eden yeni ortaya çıkan bir dizi AI girişimi tam da burada: belki de onlar kadar güçlü olmayan seyrek, özel modeller oluşturarak. GPT-3kurumsal kullanım durumları için yeterince iyidir ve ticari DDR için pahalı yüksek bant genişlikli belleği (HBM) ortadan kaldıran donanım üzerinde çalışır.

Alman AI girişimi Aleph Alpha böyle bir örnektir. 2019 yılında kurulan Heidelberg, Almanya merkezli şirketin aydınlık doğal dil modeli, OpenAI’nin GPT-3’üyle aynı manşetleri kaplayan özelliklerin çoğuna sahiptir: bunlardan birkaçını saymak gerekirse metin yazarlığı, sınıflandırma, özetleme ve çeviri.

Model başlangıcı, İngiliz dillerinde seyrek dil modellerini keşfetmek ve geliştirmek için Graphcore ile birlikte çalıştı. çip üreticisinin donanımı.

Aleph Alpha CEO’su Jonas Andrulius, “Graphcore’un IPU’ları, koşullu seyreklik gibi ileri teknolojik yaklaşımları değerlendirmek için bir fırsat sunuyor” dedi. Beyan. “Bu mimariler şüphesiz Aleph Alpha’nın gelecekteki araştırmalarında rol oynayacak.”

Graphcore’un seyreklik konusundaki büyük bahsi

Koşullu olarak seyrek modeller (bazen uzmanların karışımı veya yönlendirilmiş modeller olarak adlandırılır) verileri yalnızca uygulanabilir parametrelere göre işler; bu, bunları çalıştırmak için gereken işlem kaynaklarını önemli ölçüde azaltabilir.

Örneğin, bir dil modeli internetteki tüm dillerde eğitilmişse ve ardından Rusça bir soru sorulsa, o veriyi tüm modelde çalıştırmak mantıklı olmaz, sadece Rusça ile ilgili parametreler, ile yaptığı bir röportajda Graphcore CTO’su Simon Knowles’ı açıkladı. Kayıt.

“Tamamen açık. Beyniniz bu şekilde çalışır ve aynı zamanda bir yapay zekanın da böyle çalışması gerekir” dedi. “Bunu birçok kez söyledim, ancak bir yapay zeka birçok şey yapabiliyorsa, tek bir şey yapmak için tüm bilgisine erişmesine gerek yok.”

Bu tür modeller için uyarlanmış hızlandırıcılar geliştiren şirketi Knowles, şaşırtıcı olmayan bir şekilde bunların yapay zekanın geleceği olduğuna inanıyor. “Gelecek yıla kadar yoğun dilli modeller inşa eden biri olursa şaşırırım” diye ekledi.

HBM-2 pahalı mı? Bunun yerine DDR’de önbelleğe alın

Seyrek dil modelleri zorlukları olmadan değildir. Knowles’a göre en acil durumlardan biri hafızayla ilgili. Bu modellerin gerektirdiği gerekli bant genişliğini ve kapasiteleri elde etmek için üst düzey GPU’larda kullanılan HBM pahalıdır ve daha da pahalı bir hızlandırıcıya bağlıdır.

Bu, tüm bu hesaplama ve belleğe ihtiyaç duyabileceğiniz yoğun dilli modeller için bir sorun değil, ancak belleği hesaplamaya tercih eden seyrek modeller için bir sorun teşkil ettiğini açıkladı.

Nvidia’nın NVLink’i gibi ara bağlantı teknolojisi, belleği birden fazla GPU’da birleştirmek için kullanılabilir, ancak model tüm bu hesaplamayı gerektirmiyorsa, GPU’lar boşta kalabilir. Knowles, “Bellek satın almanın gerçekten pahalı bir yolu” dedi.

Graphcore’un hızlandırıcıları, hesaplamanın kendisi kadar eski bir tekniği ödünç alarak bu zorluğun üstesinden gelmeye çalışıyor: önbelleğe alma. Her bir IPU, bu modellerin bant genişliği gereksinimlerini karşılamak için nispeten büyük bir SRAM önbelleğine (1GB) sahiptir ve ham kapasite, büyük pahalı olmayan DDR4 bellek havuzları kullanılarak elde edilir.

Knowles, “Sahip olduğunuz daha fazla SRAM, daha az DRAM bant genişliğine ihtiyaç duyarsınız ve bu, HBM’yi kullanmamamıza izin veren şeydir,” dedi.

Belleği hızlandırıcıdan ayırarak, işletmelerin daha büyük AI modellerini desteklemesi çok daha ucuza – birkaç ticari DDR modülünün maliyetine – mal oluyor.

Knowles, daha ucuz belleği desteklemenin yanı sıra, şirketin IPU’larının, en azından seyrek modeller söz konusu olduğunda, GPU’lara göre mimari bir avantaja sahip olduğunu iddia ediyor.

Bir tensör işleme biriminde bulduğunuz gibi az sayıda büyük matris çarpanı üzerinde çalışmak yerine, Graphcore’un yongaları, belleği bağımsız olarak adresleyebilen çok sayıda daha küçük matris matematik birimine sahiptir.

Bu, “ilgili alt kümeleri getirme özgürlüğüne ihtiyacınız olduğu ve getirmek zorunda olduğunuz birim ne kadar küçükse, o kadar fazla özgürlüğe sahip olduğunuz” seyrek modeller için daha fazla ayrıntı düzeyi sağlar.

Karar henüz çıkmadı

Bir araya getirildiğinde Knowles, bu yaklaşımın IPU’larının yüz milyarlarca hatta trilyonlarca parametreyle GPU’lara kıyasla önemli ölçüde daha düşük maliyetle büyük AI/ML modellerini eğitmesini sağladığını savunuyor.

Bununla birlikte, kurumsal yapay zeka pazarı hala emekleme aşamasındadır ve Graphcore bu alanda daha büyük, daha yerleşik rakiplerle zorlu bir rekabetle karşı karşıyadır.

Bu nedenle, AI için ultra seyrek, düşük oranlı dil modellerinde geliştirmenin yakın zamanda azalması olası olmasa da, kurumsal AI iş yüklerini güçlendirecek olanın Graphcore’un IPU’ları mı yoksa başka birinin hızlandırıcısı mı olacağı henüz belli değil. ®


Kaynak : https://go.theregister.com/feed/www.theregister.com/2022/06/10/ai_enterprise_graphcore/

Yorum yapın