Bir yapay zeka (AI) algoritmasına bir soru sunulduğunda, bunun algoritmanın anlayabileceği bir formata dönüştürülmesi gerekir. Buna genellikle “gömme bir problem”, kelimenin fiil formunu kullanmak için. Bilim adamları ayrıca kelimeyi bir isim olarak kullanır ve “gömme” hakkında konuşurlar.
Çoğu durumda, yerleştirmeler sayı koleksiyonlarıdır. Gösterimlerini basitleştirmek için genellikle bir vektörde düzenlenirler. Bazen bazı matematiksel çalışmaları mümkün kılmak için kare veya dikdörtgen bir matris olarak sunulurlar.
Gömmeler, sayısal ses, video veya metin bilgisi olabilen ham verilerden oluşturulur. Bir deneyden veya bir sensörden elde edilen hemen hemen her veri, bir biçimde bir gömmeye dönüştürülebilir.
Bazı durumlarda, bu açık bir süreçtir. Sıcaklıklar veya zamanlar gibi sayılar hemen hemen kelimesi kelimesine kopyalanabilir. Ayrıca yuvarlanabilir, farklı bir birime dönüştürülebilir (Fahrenheit’ten Santigrat’a diyelim), normalleştirilebilir veya basit hatalardan arındırılabilir.
Diğer durumlarda, sanat ve bilginin bir karışımıdır. Algoritmalar ham bilgiyi alır ve AI için eldeki soruyu yanıtlamaya yardımcı olabilecek göze çarpan özellikleri ve kalıpları arar. Örneğin, otonom bir araba, dur işaretlerini belirlemek için sekizgen desenler arayabilir. Benzer şekilde, bir metin algoritması, bir ifadenin duygusunu ölçebilmek için genellikle kızgın bir çağrışım içeren sözcükleri arayabilir.
AI yerleştirmenin yapısı nedir?
Gömme algoritması, bu ham dosyaları daha basit sayı koleksiyonlarına dönüştürür. Problemin bu sayısal formatı genellikle problemden farklı unsurların kasıtlı olarak basitleştirilmesidir. Ayrıntıların çok daha küçük bir sayı kümesiyle tanımlanabilmesi için tasarlanmıştır. Bazı bilim adamları söylemek gömme işleminin bilgi açısından seyrek bir ham formattan gömmenin bilgi açısından yoğun bir formatına geçmesidir.
Bu daha kısa vektör, nihayetinde yalnızca sayı koleksiyonları olan daha büyük ham veri dosyalarıyla karıştırılmamalıdır. Tüm veriler bir şekilde sayısaldır, çünkü bilgisayarlar yalnızca sayısala dayalı kararlar alabilen mantık kapıları ile doldurulur.
Gömmeler genellikle birkaç önemli sayıdır – verilerdeki önemli bileşenlerin kısa bir özeti. Örneğin bir spor probleminin analizi, bir oyuncunun her girişini boy, kilo, sprint hızı ve dikey sıçramaya indirebilir. Bir gıda araştırması, her bir potansiyel menü öğesini protein, yağ ve karbonhidrat bileşimine indirebilir.
Bir gömme işlemine neyin dahil edileceğine ve neyin dışarıda bırakılacağına karar vermek hem bir sanat hem de bir bilimdir. Çoğu durumda, bu yapı, insanların sorun alanı hakkındaki bilgilerini eklemelerinin ve yapay zekayı konunun kalbine yönlendirirken yabancı bilgileri dışarıda bırakmanın bir yoludur. Örneğin, bir yerleştirme yapılandırılabilir, böylece sporcular üzerinde yapılan bir çalışma, göz rengini veya dövme sayısını hariç tutabilir.
Bazı durumlarda, bilim adamları kasıtlı olarak mümkün olduğunca fazla bilgi ile başlar ve ardından algoritmanın en göze çarpan ayrıntıları aramasına izin verir. Bazen insan rehberliği, bunun neden olduğu örtük önyargıyı kabul etmeden faydalı ayrıntıları hariç tutar.
Gömmeler nasıl önyargılıdır?
Yapay zeka algoritmaları, eğitim setlerindeki gömmeler kadar, gömmeler ise içlerindeki veriler kadar iyidir. Toplanan ham verilerde önyargı varsa, onlardan oluşturulan yerleştirmeler – en azından – bu önyargıyı yansıtacaktır.
Örneğin, bir şehirden bir veri seti toplanırsa, sadece o şehirdeki insanlar hakkında bilgi içerecek ve nüfusun tüm özelliklerini taşıyacaktır. Bu verilerden oluşturulan yerleştirmeler yalnızca bu kasabada kullanılırsa, önyargılar insanlara uyacaktır. Ancak veriler diğer birçok kasaba için kullanılan bir modele uyacak şekilde kullanılırsa, önyargılar çılgınca farklı olabilir.
Bazen önyargılar, bir gömme oluşturma süreci boyunca modele sızabilir. Algoritmalar bilgi miktarını azaltır ve basitleştirir. Bu, bazı önemli unsurları ortadan kaldırırsa, önyargı büyüyecektir.
Bilinen önyargıları azaltmak için tasarlanmış bazı algoritmalar vardır. Örneğin, veri kümesi kusurlu bir şekilde toplanabilir ve örneğin genel nüfustaki kadın veya erkek sayısını aşırı temsil edebilir. Belki yalnızca bazıları bir bilgi talebine yanıt verdi veya belki de veriler yalnızca önyargılı bir konumda toplandı. Gömülü sürüm, genel olarak bir miktar dengeyi geri yüklemek için aşırı temsil edilen kümenin bir kısmını rastgele hariç tutabilir.
Önyargı konusunda yapılabilecek bir şey var mı?
Buna ek olarak, bir veri kümesine denge eklemek için tasarlanmış bazı algoritmalar vardır. Bu algoritmalar, veri setinde tehlikeli veya taraflı korelasyonların olduğu yolları belirlemek için istatistiksel teknikler ve yapay zeka kullanır. Algoritmalar daha sonra verileri silebilir veya yeniden ölçeklendirebilir ve bazı önyargıları kaldırabilir.
Yetenekli bir bilim adamı, en iyi yanıtı hedeflemek için yerleştirmeleri de tasarlayabilir. Gömme algoritmalarını oluşturan insanlar, önyargı potansiyelini en aza indirebilecek yaklaşımları seçebilir ve seçebilir. Bazı veri öğelerini dışarıda bırakabilir veya etkilerini en aza indirebilirler.
Yine de, kusurlu veri kümeleri hakkında yapabileceklerinin sınırları vardır. Bazı durumlarda önyargı, veri akışında baskın bir sinyaldir.
Gömmeler için en yaygın yapılar nelerdir?
Gömmeler, çalışılan veri kümesinin yoğun bilgi temsilleri olacak şekilde tasarlanmıştır. En yaygın biçim, kayan noktalı sayıların bir vektörüdür. Değerler, bazen logaritmik olarak ölçeklendirilir, böylece vektörün her bir öğesi benzer bir değer aralığına sahip olur. Bazıları sıfır ile bir arasında değerler seçer.
Bir amaç, vektörler arasındaki mesafelerin temeldeki öğeler arasındaki farkı temsil etmesini sağlamaktır. Bu, bazı ustaca karar vermeyi gerektirebilir. Bazı veri öğeleri budanabilir. Diğerleri ölçeklenebilir veya birleştirilebilir.
Mutlak bir ölçekte doğal olarak kayan nokta sayıları olan sıcaklıklar veya ağırlıklar gibi bazı veri öğeleri olsa da, birçok veri öğesi buna doğrudan uymaz. Bazı parametreler, örneğin bir kişinin bir arabası varsa, boole değerleridir. Diğerleri, örneğin bir arabanın modeli, markası ve model yılı gibi bir dizi standart değerden alınır.
Gerçek bir zorluk, yapılandırılmamış metni gömülü vektörlere dönüştürmektir. Yaygın bir algoritma, yaygın olmayan kelimelerin varlığını veya yokluğunu aramaktır. Yani, her cümlede kullanılan temel fiiller, zamirler veya diğer yapıştırıcı kelimeler olmayan kelimeler. Daha karmaşık algoritmalardan bazıları arasında Word2vec, Gizli Semantik Analiz (LSA), Gizli Dirichlet Tahsisi (LDA) ve – Biterm Konu Modeli (BTM) bulunur.
Gömme için standartlar var mı?
AI daha yaygın ve popüler hale geldikçe, bilim adamları bazı standart gömme algoritmaları oluşturdular ve paylaştılar. Genellikle açık kaynak lisanslarıyla korunan bu sürümler, genellikle bilgiyi artırmak için bunları paylaşan üniversite araştırmacıları tarafından geliştirilir.
Diğer algoritmalar doğrudan şirketlerden gelir. Yalnızca AI öğrenme algoritmalarını değil, aynı zamanda verileri ön işlemeye yönelik gömme algoritmalarını da etkili bir şekilde satıyorlar.
Daha iyi bilinen bazı standartlar şunlardır:
- Object2vec – Amazon’un SageMaker’ından. Bu algoritma, herhangi bir veri nesnesinin en göze çarpan kısımlarını bulur ve onları tutar. Bilim adamının önemli veri alanlarına odaklanabilmesi için son derece özelleştirilebilir olacak şekilde tasarlanmıştır.
- Word2vec – Google, dili analiz ederek ve bağlamı analiz ederek ve anlamsal ve sözdizimsel kalıpları yakalayan yerleştirmeler oluşturarak kelimeleri vektör yerleştirmelerine dönüştüren bir algoritma bularak Word2vec’i yarattı. Benzer anlamlara sahip kelimelerin benzer vektör gömmeleriyle sonuçlanması için eğitilmiştir.
- Eldiven – Stanford araştırmacıları, dünya çapında kelime kullanımıyla ilgili verileri analiz etmeye çalışan bu algoritmayı geliştirdi. Adı Global Vectors’in kısaltmasıdır.
- Başlangıç – Bu model, görüntüleri doğrudan analiz etmek ve ardından içeriğe dayalı olarak yerleştirmeler üretmek için bir evrişimsel sinir ağı kullanır. Temel yazarları Google’dan ve birkaç büyük üniversiteden geldi.
Pazar liderleri yapay zeka algoritmaları için yerleştirmeleri nasıl oluşturuyor?
Tüm büyük bilgisayar şirketlerinin yapay zekaya ve ayrıca algoritmaları desteklemek için gereken araçlara güçlü yatırımları var. Herhangi bir veriyi önceden işlemek ve özelleştirilmiş yerleştirmeler oluşturmak önemli bir adımdır.
Örneğin Amazon’un SageMaker’ı güçlü bir rutin sunar, Object2Vec, bu, veri dosyalarını özelleştirilebilir bir şekilde yerleştirmelere dönüştürür. Algoritma aynı zamanda ilerledikçe öğrenir ve tutarlı bir gömme vektörleri seti üretmek için kendisini veri kümesine uyarlar. Ayrıca yapılandırılmamış verilere odaklanan çeşitli algoritmaları da desteklerler. Alevli Metin büyük metin dosyalarından yararlı gömme vektörlerini çıkarmak için.
Google’ın TensorFlow projesi, bir Evrensel Cümle Kodlayıcı metni gömmelere dönüştürmek için standart bir mekanizma sağlamak. Onların görüntü modelleri ayrıca görüntülerde bulunan bazı standart nesneleri ve özellikleri işlemek için önceden eğitilmişlerdir. Bazıları bunları görüntü kümelerindeki belirli nesne kümeleri üzerinde özel eğitim için bir temel olarak kullanır.
Microsoft’un AI araştırma ekibi, metin için bir dizi evrensel gömme modeli için geniş destek sunar. Onların Çoklu Görev, Derin Sinir Ağı örneğin model, farklı alanlarda kullanılan dille çalışırken bile tutarlı olan güçlü modeller oluşturmayı amaçlar. Onların DEBERT model, doğal dilin birçok karmaşıklığını yakalamak için 1,5 milyardan fazla parametre kullanır. Daha önceki sürümler de Otomatik Öğrenim daha kolay kullanım için araç.
IBM, birçok standart dahil olmak üzere çeşitli yerleştirme algoritmalarını destekler. Onların Kuantum Gömme Algoritma, atom altı parçacıkları tanımlamak için kullanılan teorinin bölümlerinden ilham aldı. İşlem sırasında mantıksal kavramları ve yapıyı korumak için tasarlanmıştır. Onların MAX-Kelime yaklaşımı, Watson projelerinin eğitiminin bir parçası olarak metni önceden işlemek için Döndürme algoritmasını kullanır.
Yeni başlayanlar yapay zeka yerleştirmelerini nasıl hedefliyor?
Yeni başlayanlar, bir fark yaratabilmek için sürecin dar alanlarına odaklanma eğilimindedir. Bazıları gömme algoritmasını optimize etmeye çalışır ve diğerleri belirli alanlara veya uygulama alanlarına odaklanır.
Büyük ilgi alanlarından biri, en yakın eşleşmeleri bulmanın kolay olması için yerleştirmeleri depolamak için iyi arama motorları ve veritabanları oluşturmaktır. gibi şirketler çam kozalağı.io, Milvus, Zilliz ve Elastik gömme algoritmaları ile üretilen vektörlere uygulanabilmeleri için vektör aramada uzmanlaşmış arama motorları oluşturuyorlar. Genellikle ortak açık kaynak kitaplıkları ve doğal dil işleme için gömme algoritmaları kullanarak gömme sürecini de basitleştirirler.
Amaç AI birinci taraf pazarlama verilerinde keşfedilen ağ bağlantılarının gücünü ortaya çıkarmak istiyor. Gömme algoritmaları, pazarlamacıların alıcıları satıcılarla eşleştirme sürecini optimize etmek için AI uygulamalarına yardımcı olur.
H20.ai işletmelerin ürünlerine yapay zeka uygulamalarına yardımcı olmak için otomatik bir araç oluşturur. Araç, başlangıç olarak önceden oluşturulmuş gömme algoritmalarına sahip bir model oluşturma işlem hattı içerir. Bilim adamları ayrıca, gömme oluşturmada kullanılan model özelliklerini kendi araçları aracılığıyla alıp satabilirler. özellik deposu.
Rozet platformu Temel Teknoloji varlıkları doğal dilde tanımlamak ve etiketlemek için önceden eğitilmiş bir istatistiksel model sunar. Pan-dil çözümü sağlamak için bu modeli bir dizin oluşturucu ve çeviri yazılımı ile bütünleştirir.
Yerleştirilemeyecek bir şey var mı?
Bir AI algoritması için verileri sayısal girdilere dönüştürme işlemi genellikle indirgeyicidir. Yani, karmaşıklık ve ayrıntı miktarını azaltır. Bu, verilerdeki gerekli değerin bir kısmını yok ettiğinde, tüm eğitim süreci başarısız olabilir veya en azından tüm zengin varyasyonları yakalayamaz.
Bazı durumlarda, gömme işlemi tüm önyargıları beraberinde taşıyabilir. AI eğitim başarısızlığının klasik örneği, algoritmadan iki farklı nesne türünün fotoğrafları arasında bir ayrım yapmasının istenmesidir. Bir dizi fotoğraf güneşli bir günde ve diğeri bulutlu bir günde çekilirse, gölgeleme ve renklendirmedeki ince farklılıklar AI eğitim algoritması tarafından alınabilir. Gömme işlemi bu farklılıklardan geçerse, deneyin tamamı nesne yerine aydınlatmaya odaklanmayı öğrenen bir AI modeli üretecektir.
Daha basit, daha yönetilebilir bir forma indirgenemeyecek gerçekten karmaşık bazı veri kümeleri de olacaktır. Bu durumlarda, yerleştirme kullanmayan farklı algoritmalar dağıtılmalıdır.
Kaynak : https://venturebeat.com/2022/05/31/what-is-an-embedding-for-ai/