Wharton School öğretim üyelerinden Ethan Mollick, niçin makine-arkadaş sorununu çözmemiz gerektiğini açıklıyor.
Yapay zekânın işler üzerindeki etkisini teorik olarak analiz etmekle bu etkiyi birebir pratik etmek arasındaki epey fark var. Harvard Üniversitesi’nden sosyal bilimciler Fabrizio Dell’Acqua, Edward McFowland ve Karim Lakhani’nin yanı sıra Warwick Business School’dan Hila Lifshitz-Assaf ile MIT’den Katherine Kellogg’un aralarında bulunduğu bir araştırma ekibiyle bunu yapmaya çalıştık ve araştırmamız boyunca da dünyadaki en iyi yönetim danışmanlığı kuruluşlarından Boston Consulting Group (BCG) ile deneylerimize katılmayı kabul eden sekiz yüz kişinin yardımına başvurduk.
BCG Danışmanları rastgele iki gruba ayrıldı. Gruplardan biri çalışmalarını standart bir biçimde sürdürdü ötekiyse yüz altmış dokuz ülkede erişime açılan GPT-4’ten yardım aldı. Deney süreci başlamadan önce GPT-4 ile çalışacak olan gruba ihtiyaç duyacakları oranda yapay zekâ eğitimi verildi ve ardından her iki gruba on sekiz farklı görev atandı. Bunlar arasında yaratıcı görevler (Hizmetin yetersiz olduğu bir pazarı ya da ilgi duyulmayan bir sporu hedefleyen yeni ayakkabı tasarımı için en az on fikir önerin), analitik görevler (Ayakkabı endüstrisini kullanıcı segmentlerine ayırın), metin yazarlığı ve pazarlama görevleri (Ürününüz için bir basın bülteni ve pazarlama metni hazırlayın), ikna edici görevler (Çalışanlarınıza ürününüzün niçin diğer tüm rakiplerinizi gölgede bırakacağını anlatan ilham verici bir not yazın) gibi farklı kategoriler vardı ve çalışmanın gerçekçiliğinden kuşku duymamak için bir ayakkabı firmasının yöneticilerinden de görüş alındı.
Yapay zekâyla çalışan grubun performansı çalışmayan gruba göre önemli ölçüde yüksekti. Elde edilen veriler ölçülebilen her şekilde ölçüldü ve etki analizi yüz on sekiz farklı yöntemle devam etti. Her halükârda yapay zekâyla çalışan danışman grubu çok daha hızlıydı ve ortaya koydukları işler öteki gruba göre çok daha yaratıcı, ustalıklı ve analitikti.

Fakat bu veriler çok daha dikkatli bir incelemeye tabi tutulduğunda etkileyici olduğu kadar da endişe verici bir sonuç ortaya çıktı. Danışmanlardan asıl beklenen kendilerine atanan görevleri yapay zekâya yaptırmaları değil, bu görevlerde yapay zekâdan yardım almalarıydı ama durum hiç de böyle değildi. Kullanıcıların çoğu kendilerine verilen cümleyi kopyalayıp yapıştırıyor ve gelen iyi yanıtlarla yetiniyordu. MIT ekonomistleri Shakked Noy ve Whitney Zhang tarafından gerçekleştirilen yazma deneyinde de aynı şey yaşandı: katılımcılar yapay zekâ tarafından hazırlanan çıktıyı düzenleme zahmetine bile girmedi. Aslında bu, yapay zekâyı ilk kez kullandıktan sonra insanların büyük bir kısmın gözlemlediğim temel bir sorun. Ellerindeki soruyu doğrudan kopyalayıp yapıştırıyor ve bütün yanıtların yapay zekâ tarafından verilmesini izliyorlar. Oysa yapay zekâyla çalışmanın pek çok tehlikesi mevcut ki, bunlardan biri kendimizi gereksiz hale getirmekse öteki de çalışmalarımızda onlara gereğinden fazla güvenmek.
Bu tehlikeyi bire bir deneyimledik çünkü BCG bir görev daha tasarladı ama bu sefer görev yapay zekânın doğrudan yanıt veremeyeceği bir biçimde kurgulandı –yanıltıcı veriler, yapay zekânın analiz edemeyeceği zor bir istatiksel sorunla bir araya getirildi. Yapay zekâ kullanmayan danışman grubu meseleyi %84 oranında doğru çözümlerken deneyin en başından beri yapay zekâ kullanan grup %60 - %70 aralığında kaldı. Peki niçin böyle oldu?
Fabrizio Dell’Acqua, yazmış olduğu makalelerden birinde yapay zekâya gereğinden fazla güvenmenin niçin olumsuz sonuçlara yol açtığını gayet açıklayıcı bir biçimde anlatıyor. Her şeyden önce işe alım süreçlerinde yüksek nitelikli bir yapay zekâ yazılımı kullanmak, işe alım uzmanlarının körelmesine sebep oluyor – tembelleşiyor, dikkatlerini yitiriyor ve nihayetinde muhakeme kabiliyetlerini kaybediyorlar. Bu konuda gerçekleştirilen deney esnasında yapay zekâyla çalışan işe alım uzmanları çok sayıda iyi başvuruyu kaçırdı ve yapay zekâ kullanmayan işe alım uzmanlarına göre çok daha kötü tercihlerde bulundu. Yüz seksen bir kişilik işe alım uzmanından oluşan farklı gruplara, kırk dört farklı iş başvurusunu adayların matematiksel becerilerine göre değerlendirme görevi verildi. Bütün veriler yetişkinliklere yönelik bir uluslararası beceri testinden elde edildiği için adayların matematikte ne denli yetenekli olduğu özgeçmişlerinden anlaşılmıyordu ve işe alım uzmanlarının bir kısmında iyi ya da kötü yapay zekâ desteği varken ötekinde yoktu. Ve Dell’Acqua, işe alım uzmanlarının muhakeme kabiliyetini, hızını, çalışkanlığını ve özgüvenini ölçtü.
Yüksek kaliteli bir yapay zekâ yazılımı kullanan işe alım uzmanları, düşük kaliteli yazılım kullanan gruptan çok daha kötüydü. Özgeçmişlerin her birine çok az vakit ayırdılar ve yapay zekânın getirdiği önerileri körü körüne takip ettiler. Öte yandan düşük kaliteli yapay zekâ yazılımı kullanan grup bu ilk gruba göre çok daha dikkatli, eleştirel ve bağımsızdı. Hem kendi becerilerini hem de yapay zekâyla olan etkileşimlerini geliştirdiler. Dell’Acqua, yapay zekânın kalitesiyle insan çabası arasındaki değiş tokuşu izah edebilmek için matematiksel bir model geliştirdi. Yapay zekâ çok iyi olduğunda insanlar çok çalışmaya, daha doğrusu dikkatli bir biçimde çalışmaya gerek duymuyor ve yapay zekâyı bir araç olarak kullanmak yerine onun kontrolü ele almasına izin veriyorlar. Bu da insanların yeni bir şeyler öğrenmesine, bildiklerini pekiştirmesine, becerilerini geliştirmesine ve üretkenliğine zarar veriyor. Başka bir deyişle kaliteli yapay zekâ yüzünden insanlar “direksiyon başında uykuya dalıyor.”
Çeviren: Fulya Klıınçarslan






