Bilgileri takip edin (Gerçek veri sorunu)


Yukarı çık! Bir gel tam Gel! Dünyanın gördüğü en yüksek bahisli Three Card Monte oyununa hoş geldiniz.

Derin öğrenme, Veri Sorunu ile karşı karşıyadır: etiketlenmiş verilere olan talep neredeyse sonsuzdur ve tartışmaya açık bir şekilde, kuruluşta etiketlenmiş verilerin eksikliği, ilerlemenin önündeki en önemli darboğazdır.

Cevabı bulalım.

İlk olarak, yapay zekanın özündeki Veri Problemini ele almak için son birkaç yılda ortaya çıkan şaşırtıcı sayıda teknikten birini seçeceğiz. Kartların hepsi önümüze serildi ve şüphesiz bunlardan birinin altında sıradaki tek boynuzlu at ve decacorn’ların sırrı var.

Denetimsiz öğrenme, temel modeller, zayıf denetim, transfer öğrenme, ontolojiler, temsili öğrenme, yarı denetimli öğrenme, öz denetimli öğrenme, sentetik veriler, bilgi grafikleri, fiziksel simülasyonlar, sembol manipülasyonu, aktif öğrenme, sıfır vuruşlu öğrenme ve üretken modeller.

Sadece birkaç isim.

Kavramlar tuhaf ve öngörülemeyen şekillerde dalgalanır ve örülür ve birleşir ve bölünür. Bu uzun listede evrensel olarak üzerinde anlaşmaya varılmış bir tanımı olan tek bir terim yok. Güçlü araçlar ve abartılı vaatler örtüşür ve baş döndürücü teknikler ve araçlar dizisi, en bilgili müşterileri ve yatırımcıları bile dengeyi bozmak için yeterlidir.

Peki, hangisini seçersiniz?

Tüm veriler, bilgi yok

Sorun, elbette, en başta kartları izlememeliydik. Hangi sihirli moda sözcüğün geleceği asla bir soru olmadı. bertaraf etmek Veri Problemi çünkü problem aslında hiçbir zaman ilk etapta verilerle ilgili değildi. En azından, tam olarak değil.

Kendi başına veriler işe yaramaz. Yüz tuş vuruşundan daha az bir sürede, bilgisayarımı, modern bir sinir ağını evrenin ısı ölümüne kadar kararsızlıktan geçmeye devam etmeye yetecek kadar rastgele gürültü üretecek şekilde ayarlayabilirim. Biraz daha çaba ve 10 megapiksellik bir telefondan tek bir resimle, üç pikselin her kombinasyonunu karartabilir ve bugün internette var olandan daha fazla veri oluşturabilirim.

Veri sadece bir araçtır. Bilgi taşıdığı şeydir. İkisini karıştırmamak çok önemli.

Yukarıdaki örneklerde bol miktarda veri var ama neredeyse hiç bilgi yok. Kredi onayları, endüstriyel tedarik zincirleri ve hatta sosyal medya analizi gibi son derece karmaşık, bilgi açısından zengin sistemlerde sorun tersine çevrilir. Düşünce nehirleri ve insan ifadesinin galaksileri, indirgeyici ikili dosyalara kaynatılır. Kazmayla bir dağı kazmaya çalışmak gibi.

Bu, Veri Probleminin kalbidir. Bu, akıl almaz bir bilgi bolluğu – yollarda bir milyar araba – bir şekilde hem elle tutulur hem de erişilemez. Yüzlerce insan ve milyarlarca dolar, captcha testleri ve sınıflandırma veri setlerinde çok az atık ve çakıl taşıyor.

İşte bu noktada moda sözcüklerin tsunamisi devreye giriyor. Yüzlerce makalenin tümü ve yöntemlerin kendi karmaşıklığı için, motivasyonlar ve temel ilkeler basittir. En iyi ve en basit açıklama, Google’ın eksik şartname kağıdı.

Sinir ağlarını kalıplama

Her olası sinir ağını devasa, bulanık bir alan olarak hayal edin. Neredeyse her şeyi yapabilir, ama safça hiçbir şey yapmaz.

Bu sinir ağının yapmasını istediğimiz bir şey var ama ne olduğundan henüz emin değiliz. Sonsuz olasılıklara sahip kalıplanmamış kil gibidir. Bu, bir sistemde kalan özgürlük miktarı olan, olasılığın matematiksel bir resmileştirmesi olan Shannon entropisi ile dolup taşan, sınırsız bir karmaşadır. Aynı şekilde, bu olasılıkları ortadan kaldırmak için sisteme eklememiz gereken bilgi ve iş miktarı.

Bugün, esas olarak insanları taklit etmekle ilgileniyoruz. Yani bu bilgi ve bu çalışma insanlardan gelmelidir.

Yani ilerlemek için, insanlar kararlar vermek zorunda. Bu devasa alanda bir savurganlık olmalı. Shannon entropisinde bir azalma. Bir olasılık okyanusunda mükemmel su damlasını bulmak gibi ve bu tam olarak hayal ettiğiniz kadar pratik değil. Daha pratik olarak, okyanusun doğru alanını bulmak gibi. Bu, eşdeğerlik kümesidir – her seçeneğin eşit derecede optimal olduğu sonsuz büyüklükteki okyanusun sonsuz bir alt kümesi.

Bildiğin kadarıyla.

Denetim, verilerde yakalanan bilgiler, okyanusu kazanmamızın yoludur. İşte böyle diyoruz: “Yaptığın her şeyden abilir yap, sen bu meli yapmak.” Gürültüyü kesmenin anahtarı ve netliği budur. Burada bedava öğle yemeği yok ve size akan teknikler ve matematik kar fırtınasında, odaklanmanız gereken şey bilgi akışlarıdır.

Yeni bilgiler sisteme nereden giriyor?

Nvidia’nın Omniverse Çoğaltıcı harika bir örnektir. Sentetik bir veri platformudur. Gerçekte olsa da, bu size çok az şey söylüyor. Verileri tanımlar, ancak bilgi fizik simülasyonlarıdır. Gibi diğer sentetik veri platformlarından tamamen farklıdır. statice.ai Kişisel olarak tanımlanabilir verilerde tutulan bilgileri, aynı bilgileri içeren tanımlanamayan sentetik verilere dönüştürmek için üretken modeller kullanmaya odaklanan.

Başka bir vaka çalışması, Tesla’nın benzersiz aktif öğrenme yaklaşımıdır. Geleneksel aktif öğrenmede, temel bilgi kaynağı veri bilimcisidir. Göreve çok uygun bir aktif öğrenme stratejisi belirleyerek, yeni eğitim örnekleri denklik setinizi normalden daha da azaltacaktır. Andrej Karpathy’nin filmlerinden birinde son görüşmeler konuyla ilgili olarak, Tesla’nın bu tekniği nasıl önemli ölçüde geliştirdiğini açıklıyor. Veri bilimcilerin optimal bir aktif öğrenme stratejisi oluşturmasını sağlamak yerine, birkaç gürültülü stratejiyi birlikte kullanır ve en etkili örnekleri belirlemek için daha fazla insan seçimini kullanırlar.

Sezgisel değildirler, ek insan müdahalesi ekleyerek genel sistem performansını iyileştirirler. Geleneksel olarak bu bir gerileme olarak görülecektir. Daha fazla müdahale, geleneksel bakış açısıyla daha az iyi olan daha az otomasyon anlamına gelir. Ancak bilgi merceğinden bakıldığında, bu yaklaşım son derece mantıklıdır. Sistemdeki bilgi bant genişliğini önemli ölçüde iyileştirdiniz, böylece iyileştirme oranı hızlanıyor.

Bu oyunun adıdır. Moda sözcüklerin patlaması sinir bozucu ve şüphesiz, bu moda sözcükleri benimseyen çok sayıda insan, içlerindeki vaadi yanlış anladı. Bununla birlikte, moda sözcükler gerçek ilerlemenin göstergesidir. Sihirli mermiler yok ve biz bunu bilecek kadar uzun süredir bu alanları araştırdık. Bununla birlikte, bu alanların her biri kendi başına fayda sağlamıştır ve araştırmalar, birleştirerek hala önemli kazanımlar elde edildiğini göstermeye devam etmektedir. ve bu denetim paradigmalarını birleştirmek.

İnanılmaz olasılıkların olduğu bir dönem. Daha önce kullanılmayan kaynaklardan gelen bilgileri kullanma yeteneğimiz hızlanmaya devam ediyor. Şu anda karşılaştığımız en büyük problemler, zenginliğin utancı ve gürültünün şaşkınlığıdır. Her şey çok fazlaymış gibi göründüğünde ve gerçeği kurgudan ayırmakta zorlandığınızda, şunu unutmayın:

Bilgileri takip edin.

Slater Victoroff, şirketin kurucusu ve CTO’su. Indico Verileri.

DataDecisionMakers

VentureBeat topluluğuna hoş geldiniz!

DataDecisionMakers, veri işi yapan teknik kişiler de dahil olmak üzere uzmanların verilerle ilgili içgörüleri ve yenilikleri paylaşabileceği yerdir.

En yeni fikirleri ve güncel bilgileri, en iyi uygulamaları ve veri ve veri teknolojisinin geleceğini okumak istiyorsanız DataDecisionMakers’da bize katılın.

Kendi makalenize katkıda bulunmayı bile düşünebilirsiniz!

DataDecisionMakers’dan Daha Fazlasını Okuyun


Kaynak : https://venturebeat.com/2022/06/04/follow-the-information-the-real-data-problem/

Yorum yapın