Yapay Zeka Pizza Siparişi Alabilir mi? Gerçek Bir Test Yaptık

OpenAI’nin ChatGPT’yi Kasım 2022’de piyasaya sürmesinden bu yana, Generative AI teknolojileri hızlı bir şekilde ilgi odağı haline geldi. Büyük dil modellerini geliştiren şirketlere, örneğin Google’ın Gemini’si, Meta’nın Llama’sı ya da Anthropic’in Claude’u—milyarlarca dolar yatırım yapıldı. Ayrıca, bu yapay zeka temelli yeni ürünler üzerinde çalışan startup’lara da büyük sermayeler aktarıldı.
- ChatGPT’nin Hataları
- Temel Bilgiler
- Neden Yemek Siparişi Test Alanı Olarak Seçildi?
- İngilizce Menü İncelemesi
- Menü Yapısı
- Yemek Siparişindeki Tipik Konuşma Akışları
- ChatGPT 3.5 ile Etkileşim Sonuçları
- Menüde Olmayan Ürünleri Reddetme
- Alışılmadık Malzeme Talepleri
- Kısmi Eşleşmeler ve Yanlış Kabul
- Seçenek Uyumluluğu
- Miktar Sınırları
- Fiyat Hesaplama
- Menü Seçeneklerini Anlama
- Yarım-Yarım Pizza İncelemesi
- Sipariş 1:
- Sipariş 2:
- Sipariş 3:
- Sonuç
Biz de, patentli sohbet tabanlı yapay zeka platformumuzu kullanarak bu LLM sohbet araçlarının yeteneklerini derinlemesine değerlendirmek istedik. Amacımız, bu sistemlerin;
- Kullanıcıdan gelen karmaşık talepleri ne kadar iyi anladığını,
- İş süreçlerine özgü mantığı ne kadar doğru şekilde takip ettiğini,
- Ve belirli uygulamalarda doğal olarak gelişen sohbet akışlarını ne kadar iyi desteklediğini görmekti.
Testimiz için seçtiğimiz görev ise, İtalyan tarzı ve menü çeşitliliğiyle karmaşık bir restorandan sohbet ederek yiyecek siparişi vermekti. Bu alan, milyonlarca tüketicinin farklı kanallardan yemek siparişi verdiği bir ortam olması nedeniyle, ChatGPT gibi yapay zekaların mantık yürütme becerilerini sınamak açısından oldukça uygun bir zemin sunuyor. İnsan sipariş alıcıları, doğuştan gelen zekâlarıyla siparişleri anlamlandırıp, menü kurallarına uygun ve eksiksiz siparişler hazırlamak konusunda ustalar. Biz de ChatGPT’nin bu görevde ne kadar başarılı olduğunu merak ettik.
ChatGPT’nin Hataları
ChatGPT 3.5’in bazı durumlarda başarısız olabileceğini tahmin etmiştik, bu yüzden menümüzdeki mantığı büyük ölçüde takip etmesini bekleyerek ona yeterince açık İngilizce talimatlar verdik. Ancak şaşırtıcı bir şekilde, basit mantık gerektiren durumların çoğunda başarısız oldu. Anlaşılıyor ki, doğru sonuçlar almak için sadece bir dil modeli ya da birden fazlasına güvenmemek gerekiyor.
ChatGPT’nin özellikle pizza gibi kişiselleştirilebilir ürünlerde sipariş alma sürecinde hata yaptığı başlıca noktalar şunlar:
- Kısmi eşleşme konusunda yetersiz kalıyor: Kullanıcıya seçenek sunmak yerine, kısmen eşleşen ürünlerden birini direkt kabul ediyor. Yine de hiç eşleşmeyenleri reddediyor.
- Menü dışındaki eklemelere açık: Menüde olmayan ürünleri reddetse de, kişiselleştirilebilir ürünlere menüde olmayan seçenekler eklemeye oldukça hevesli davranıyor.
- Kişiselleştirme konusunda pek başarılı değil:
- Gerekli seçenekleri sormayı unutabiliyor.
- Bazen yanlış veya ilgili kategoride olmayan seçenekleri soruyor.
- Uyumluluk kurallarını devreye sokamıyor.
- Ürüne ait malzemeler açıkça belirtilse bile, malzeme çıkarmayı anlamakta zorlanıyor.
- Miktar sınırlarını doğru uygulamakta zorlanıyor: Bir grup seçenek için maksimum limitler varsa, ya bu kuralları göz ardı ediyor ya da konuyu erken kabul edip daha sonra aynı oturumda sınırı yok sayıyor.
- Basit hesaplamalarda bile hata yapabiliyor: Toplam fiyat gibi temel aritmetik işlemlerde bile birçok farklı hatayla karşılaştık.
- Eksik seçenekler içeren birden fazla ürün siparişinde tutarsız davranıyor: Bazen eksik bilgileri istemeyi unutuyor, bazen ise verdiğimiz bilgiyi görmezden gelip tekrar soruyor.
- Yarım-yarım pizza siparişlerinde basit kuralları uygulayamıyor: Her iki yarının aynı boyutta ve aynı hamurda olması gerektiği gibi kurallara uymakta başarısız oldu. Hatta bazı durumlarda yarım-yarım siparişini iki ayrı pizza gibi algıladı.
- Yanlışlarını açıklama ve düzeltme yeteneği şüpheli: Hataları sorgulandığında, sadece farklı ve bazen doğru bazen de eşit derecede yanlış bir cevap üretiyor. Sanki hatasını anlayıp düzeltmek yerine, rastgele başka bir cevap oluşturuyor gibi.
Bunlar, gözlemlediğimiz pek çok başarısızlıktan en dikkat çekenler ve aşağıdaki raporda her bir örnek detaylı şekilde kullanıcı girdisi, bulgularımız ve tam ChatGPT 3.5 oturum bağlantısıyla birlikte inceleniyor.
Temel Bilgiler
LLM tabanlı sohbet araçları (örneğin ChatGPT, Gemini gibi) hızla yaygınlaşırken ve farklı sektörlerde çeşitli iş süreçlerini otomatikleştirmek amacıyla Yapay Zeka ajanları geliştirilmeye başlanırken, biz de bu araçların ne kadar başarılı olduğunu detaylıca anlamak istedik. Özellikle;
- Kullanıcıların rastgele isteklerini anlayabilme,
- Bir iş sürecine dair temel mantığı doğru takip edebilme,
- Ve o iş alanına özgü doğal sohbet akışlarını destekleyebilme konularında nasıl performans gösterdiklerini merak ettik.
Deneyimizi, menüsü hem çeşitlilik hem de karmaşıklık açısından tipik bir İtalyan restoranından yemek siparişi üzerine kurduk ve ChatGPT 3.5 modelini (OpenAI API üzerinden gpt-3.5-turbo-0125) temel alarak, tüm LLM tabanlı sohbet araçlarının temsili gibi değerlendirdik.
İlerleyen analizlerde, farklı LLM sohbet araçlarıyla karşılaştırmalı sonuçlar sunmayı ve ayrıca yeni ChatGPT 4 sürümünü de inceleyerek raporlamayı planlıyoruz.
Bu çalışma sadece yemek siparişi alanında çalışan yapay zeka ajanları için değil, genel olarak LLM kullanan yapay zeka ajanları geliştirmek isteyen iş dünyası için de faydalı olacak. Özellikle, sistem başlangıç talimatlarında sade İngilizce ile belirtilen basit iş mantığını LLM tabanlı sohbet araçlarının ne kadar iyi takip edebildiği bizim için oldukça önemli bir bulgu olacak.
Biz de, patentli yapay zeka ajanları platformumuzla eğitim, restoranlar, konaklama ve saha hizmetleri gibi birçok sektörde (web sitesi botları, ses tabanlı yemek siparişi otomasyonu, oda içi müşteri destek ajanları gibi) müşterilerimize çözümler sunuyoruz.
Neden Yemek Siparişi Test Alanı Olarak Seçildi?
Merak edenler için, neden yemek siparişi sürecini test alanı olarak seçtiğimize dair birkaç sağlam sebep var.
- Devasa Pazar: Sadece Amerika Birleşik Devletleri’nde restoran sektörü tam 1 trilyon dolarlık bir ekonomi oluşturuyor. Yani her yıl trilyonlarca dolarlık yemek siparişi veriliyor diyebiliriz. Sipariş hacmi açısından baktığımızda, bu durum birçok iş uygulamasından çok daha büyük bir alanı kapsıyor.
- Herkes İçin Aşina Bir Deneyim: Bizlerin neredeyse tamamı en az bir kez yemeği telefonla, drive-thru’da, kiosk üzerinden, bir uygulama ya da web sitesi aracılığıyla ya da restoranın tezgahından veya masasından sipariş vermiştir. Bu yüzden örnekler ve etkileşim senaryoları çoğumuza tanıdık gelecek. Bilgisayar programlama, seyahat planlama ya da sigorta gibi karmaşık ve özel bir bilgiye ihtiyaç duymadan rahatlıkla anlayabiliriz.
- Doğal Konuşma Gereksinimi: Restoranda (ya da telefonda, drive-thru’da) yemek siparişi genellikle bir sohbet havasında, kullanıcı ile sipariş alan arasında geçen doğal diyalog şeklinde olur. Bu da dil becerisi gerektirir; kullanıcının ne söylediğini anlamak, ilgilendiği menü öğelerini kavramak, açıklama için sorular sormak ve siparişteki değişikliklere uyum sağlamak gibi. Sesli siparişlerde ise aksan farklılıkları ve sesin yanlışa çevrilmesi gibi ek zorluklar da ortaya çıkar. (Bu yazıda sesle ilgili sorunlara değinmiyoruz.)
- Deneyim ve Bilgi Birikimi: Farklı restoran türlerinde (sandviç, pizza, etnik mutfak vs.) ve değişik kanallarda (drive-thru, telefon, web sitesi, kiosk) çalıştık, dolayısıyla yemek siparişi için AI ajanları geliştirmede karşılaşılan pek çok zorluk ve soruna aşinayız.
- İnsan Faktörü: Restoranlardaki sipariş alan kişiler genellikle yüksek eğitimli veya uzman kişiler değil; çoğu zaman asgari ücret civarında kazanıyorlar ama çok akıllı insanlar. Bu önemli çünkü, çok fazla eğitim almadan bile genelde yorgun ya da bazen sert müşterilerle rahat bir şekilde iletişim kurup sipariş alabiliyorlar. Büyük bir restoran zincirinin drive-thru hattındaki siparişleri saatlerce dinledik ve müşterilerle sipariş alanlar arasındaki karşılıklı diyaloğun oldukça detaylı ve uzun olduğuna şahit olduk. AI ajanı burada müşterinin niyetini anlamalı, menü kurallarına uymalı, gerektiğinde ek bilgi istemeli, yanlış sipariş yapmalarını önlemeli; ayrıca sakin kalmalı, ara satış fırsatları yaratmalı ve sipariş tamamlama süresine göre de değerlendirilmeli.
İnsanın sahip olduğu bu sıradan ama güçlü konuşma ve mantıklı düşünme yeteneklerine dayanan yemek siparişi süreci, özellikle büyük dil modellerinin (LLM) akıl yürütme ve problem çözme iddialarını test etmek isteyenler için müthiş bir kıstas oluşturuyor. Hatta yapay genel zekâ (AGI) konusunda bile önemli bir sınav diyebiliriz.
İngilizce Menü İncelemesi
Bizim amacımız, üzerinde seçeneklerin bulunduğu maddeleri içeren bir menü seçmekti. Çünkü böyle bir menü, hem seçenek kurallarına uyma gerektiriyor hem de kullanıcının tam ve doğru bilgilerini almak için karşılıklı diyalog kurmayı şart koşuyor.
Menümüzü tipik bir İtalyan pizzacıdan aldık. Pizza siparişlerinin karmaşıklığı, büyük dil modellerinin zekasını test etmek için ideal bir zemin sunuyor.
Menü orijinalde JSON formatındaydı (bilgisayarların sık kullandığı bir format) ve ChatGPT’nin anlayabilmesi için bunu okunabilir İngilizceye çevirdik. Ancak çeviri sonrasında birkaç hata ve eksiklik fark ettik, onları da manuel olarak düzelttik ve ekledik.
İşte elimizdeki menü bu şekilde.
Menü Yapısı
İncelediğimiz menülerin çoğu, genellikle dört seviyeden oluşan bir yapı kullanıyor. Mesela az önce gördüğümüz menüde, en üst seviyede “Başlangıçlar”, “Pizza”, “Calzone”, “İçecekler” ve “Tatlılar” gibi Menü Kategorileri var. İnsanlar bu kategorilerden doğrudan sipariş vermez; bunlar aslında alt seviyedeki menü öğelerini gruplamak için var.
Menü Öğeleri ise insanların sipariş ettiği ana ürünler. Bunlar bazen sadece isimleriyle sipariş edilebilir, bazen ise doğru ve eksiksiz sipariş için birkaç seçeneğin belirtilmesi gerekir. Örneğin menümüzdeki
Chicken Parmesan Sandwich, New York Cheesecake, Garlic Chicken Calzone, Buffalo Wing, Vegetarian Pizza, Spaghetti with Meat Ball gibi ürünler sadece isimle sipariş edilebilen basit öğeler. Ama Create Your Own Pizza ya da Create Your Own Calzone, Salads ve Drinks gibi seçenekler ise içlerindeki farklı opsiyonlarla kişiselleştirilebilir.
Bu opsiyonlar “Modifier Groups” yani değiştirici gruplar halinde sunuluyor. Her grup, kullanıcıların seçebileceği değiştirici öğeleri ve minimum-maksimum seçim kurallarını içeriyor. Biz menüyü İngilizceye çevirdiğimizde, bu kısıtlamaları ChatGPT’nin doğru karar vermesini sağlayacak şekilde cümlelere dönüştürdük. Örneğin şöyle bir kuralla karşılaşabilirsiniz:
Choose your topping.
At least 2, up to 5 and no more from the following:
Anchovies
Artichokes
Bacon
Bell Pepper
…
Bu tarz açıklamalar restoranda görebileceğiniz türden.
Menülerde bazen çeşitlilik ve ekstra karmaşıklıklar olsa da, çoğu menü ve öğeleri bu dört seviyelik yapı ile rahatlıkla tanımlanabiliyor. Daha detaylı kurallara girmek bu rapor için gereksiz.
Kullanıcının siparişi, bir veya daha fazla menü öğesinden oluşuyor. Kişiselleştirilebilir ürünlerde seçilen opsiyonlar siparişi tamamlayıcı nitelikte. Genelde hem ana ürünün hem de opsiyonların fiyatı belirlenir ve siparişin toplam ücreti bunların toplamından oluşur (vergiler ve servis ücretleri hariç).
Bazı restoran menüleri oldukça sade; seçeneklerin opsiyonsuz olduğu, sadece isimle sipariş verilen öğelerden oluşur. Ama birçok menü öğesi –özellikle pizza, calzone, salata gibi – daha karmaşık yapıya sahip, siparişin geçerli olabilmesi için bazı kurallara uyulması gerek. Mesela kullanıcı bazı zorunlu özellikleri belirtmezse, ChatGPT’nin bunu sorması beklenir.
Yalnızca menüde açıkça bulunan ürünler kabul edilmeli, yani restoranın satmadığı bir şeyi sipariş etmek mümkün olmamalı. Bu, menü kategorileri, menü öğeleri, opsiyon grupları veya opsiyon ürünleri için geçerli.
Kullanıcılar bazen tam ismi bilmeyebilir, benzer ya da kısmi isimler kullanabilir. Böyle durumlarda, ChatGPT en yakın eşleşmeleri önerip seçimi kolaylaştırmalı.
Pizza veya calzone gibi ürünlerde ekstra opsiyonlar (büyüklük, hamur tipi, sos, peynir, malzeme seçimi, ekstra isteğe bağlı opsiyonlar gibi) seçilmeli. Örneğin, pizza siparişi verirken mutlaka büyüklük, hamur, sos ve malzemeler belirtilmeli; bunlar olmazsa sipariş tamamlanamaz. Opsiyonel ekstralar ise sadece kullanıcı belirtirse eklenir, sormaya gerek yok. Bu kuralları ChatGPT’nin takip edip etmediğine bakıyoruz.
Bazı opsiyon gruplarında seçilebilecek ürün sayısı sınırlandı. Mesela bir pizzaya en fazla 5 malzeme konabilir, calzone’da 3 malzeme sınırlaması olabilir. Pizza büyüklüğü tek seçimdir, yani hem küçük hem büyük olmaz. “Pizza kombosu” ise bir pizza, bir içecek ve bir salatadan oluşan ve bu üçü için ayrı ayrı opsiyon gruplarına sahip bir öğedir; hepsinden birer tane seçmek gerekir.
Toplam ücret hesabı ise basit değil. Sipariş fiyatı, ana ürünün fiyatıyla seçilen opsiyonların fiyatlarının toplanmasıyla hesaplanır. ChatGPT’nin hesaplamalarda genelde zorlandığını düşündüğümüz için, burada ne kadar başarılı olduğunu görmek istiyoruz.
İçecekler farklı boyutlarda olabilir (örneğin 12oz kutu ya da 2 litrelik şişe), ancak her içecek her boyutta sunulmaz; botun sadece geçerli kombinasyonları kabul etmesi lazım.
Yarım-yarım pizza siparişi ise AI ajanlar için hep zor olmuştur. Biz bunu üç aşamada test ettik: önce hiç talimat vermeden nasıl sipariş aldığını gördük; sonra biraz kural ekledik – mesela yarımda hangi pizzayı seçerse seçsin, her yarım kendi kurallarına göre özelleştirilebilir; son aşamada ise “bir yarım ince, diğer yarım kalın olamaz” ya da “bir yarım küçük, diğer yarım büyük olamaz” gibi kesin kuralları ekledik.
Yazının devamında, ChatGPT ile yapılan oturumların dökümanlarına da bağlantılar vereceğiz. Bu dökümanlarda menü ve verilen sistem talimatları yer alıyor.
Yemek Siparişindeki Tipik Konuşma Akışları
Genelde yemek siparişi verirken işler oldukça düzensiz ve akış bazen karmaşık oluyor. İnsanlar genellikle tek tek, sırayla bir menü öğesi seçip ona ait seçenekleri tamamlayarak siparişi bitirmiyorlar. Daha çok, birkaç ürünü aynı anda, bazen de eksik bilgilerle istemeye başlıyorlar. Biz sipariş alanlar olarak bu karışık isteklerin hepsini takip edip doğru ve eksiksiz bir sipariş oluşturmak zorundayız. Kullanıcının söylediği her öğe tam olarak tamamlanmalı ve tüm seçenekler eksiksiz ve doğru şekilde alınmalı. Üstelik, hangi sırayla söyledikleri hiç fark etmez, her şey eksiksiz toplanmalı.
Kullanıcılar eksik kalan bilgileri bizim sormamızı bekliyor, ama onlara sorulan sorulara verdikleri cevaplar çeşitlilik gösteriyor. Mesela:
- Sadece sorulan soruya cevap veriyorlar.
- Cevap verirken siparişe yeni bir ürün ekliyorlar.
- Daha önce söylediklerinde değişiklik yapıyorlar.
- Cevap verip aynı zamanda bizim sormamız için açıklayıcı bir soru soruyorlar.
- Sorulan soruyu görmezden gelip yeni bir ürün ekliyorlar.
- Soruyu yok sayıp daha önce söylediklerinde değişiklik yapıyorlar.
- Soruyu dikkate almadan açıklayıcı bir soru yöneltiyorlar.
Bu durumlarda asıl test edeceğimiz şeyler şunlar:
- Ekstra bilgileri yönetme: Kullanıcı bazı bilgileri kısmen verir, mesela “18 inç, kırmızı soslu kendi pizzanı yap” der ama hamur tipi veya malzemeleri söylemez. Biz verdiği bilgileri unutmadan eksik kalan detayları sormalıyız.
- Değişen durumu takip etme: Eksik bilgiyi sorduğumuzda, kullanıcı başka taleplerde bulunup konuyu değiştirebilir. Biz önceki eksik bilgiyi hatırlayıp tekrar sormalıyız.
- Konuyu genişletme: Kullanıcı yeni bir ürün istediyse ve bunun seçenekleri varsa, biz bunları da sormalıyız. Yani her yeni ürün yeni bir konu açar, önceki tamamlanmamış konular da hala bizim ilgimizde olur.
- Siparişi değiştirme: Kullanıcı sipariş ortasında fikrini değiştirebilir. Mesela bir ürünü çıkarabilir veya tamamlanmamış seçimleri iptal edip yeni tercihlere yönelebiliriz.
Kısacası, sipariş süreci rahat ve akıcı değil; bizim de çok iyi takipçi ve uyum sağlayıcı olmamız gerekiyor.
ChatGPT 3.5 ile Etkileşim Sonuçları
Menüde Olmayan Ürünleri Reddetme
ChatGPT, menüde yer almayan ürünleri reddetme konusunda genel olarak iyi iş çıkardı. Örneğin, oturum 27-1, 27-4 ve 27-5’te bunu rahatça gördük. Ancak oturum 27-3’te yeni bir başarısızlık türüyle karşılaştık. İlk başta, tandoori chicken pasta anlamında bir sipariş verdiğimizde bunu menüde olmadığını doğru olarak belirtti ve Pasta kategorisinden ürünler önerdi. Fakat sonra, chicken fettuccini alfredoya tandoori chicken eklememizi istediğimizde, bunun menüde mümkün olmadığını söylemeden kabul etti. Yani ChatGPT, menü sınırlarını aşarak eğitim verisinde gördüğü şeylere dayanabiliyor gibi görünüyor.
Alışılmadık Malzeme Talepleri
Mesela paneer ya da koku böceği gibi pizza malzemeleri eklemeye çalıştık. Koku böceği teklifimizi reddetti ama paneer‘i kabul etti, oysa menümüzde böyle bir malzeme hiçbir yerde geçmiyor. Buradan anlaşılıyor ki, ChatGPT bazen eğitim verisinden edinilen bilgileri menü dışı yasal olmayan kabul ediyor. Gerçek bir sipariş durumunda bu kabul edilemez bir hata olur.
Kısmi Eşleşmeler ve Yanlış Kabul
Kısmi eşleşmelerle de denemeler yaptık. Örneğin, Cheesy bread sticks istememize rağmen menüde bu ürün yok, ama benzer üç ürün var: Bread sticks, Cheesy sticks ve Cheesy garlic sticks. ChatGPT bunlardan hiç birini önermedi ve 10,99$ fiyatla var olmayan Cheesy bread sticks siparişini kayıtlara geçti. Büyük ihtimalle fiyatı benzer olan Cheesy sticks ya da Cheesy garlic sticks ile eşleştirdi.
Benzer şekilde, Chicken Calzone siparişi istedik; menüde yok ama BBQ Chicken Calzone ve Garlic Chicken Calzone var. ChatGPT hem yanlış ürünü kabul etti hem de kalzonların menümüzde boyutu olmamasına rağmen boyut sordu. Üstelik sunduğu boyutlar Create Your Own Pizza seçeneğine aitti. Bu da biraz garip bir hata.
Seçenek Uyumluluğu
Menümüzdeki tek uyumluluk kuralı, içeceklerin 12oz kutu veya 1 litrelik şişelerde olması ve her içeceğin her iki boyutta olmaması. ChatGPT, kullanıcı doğru boyutu belirtiyorsa sadece o boyuttaki içecekleri seçmeye izin vermeli. Örnek olarak oturum 25’te Bir soda istiyorum dediğimizde, boyut ve tip sorarak doğru ilerledi.
Ancak daha karmaşık siparişlerde başarısız oldu. Mesela oturum 17A’da Cajun sausage sandwich, buffalo wings ve soda sipariş ettik, ama soda için boyut ya da tür sormadı, direkt 12oz kutu soda sipariş etti. Oturum 30-2’de Bir kutu soda ile tavuklu ıspanak salatası istedik, ama içecek türünü sormadı, ilk seçenek olan kola’yı aldı. 31-1’de Buffalo wings ile 2 litrelik Dr Pepper istedik, ChatGPT önce bunu yanlış buldu ama sonra kafa karışıklığı yaşayıp hatalı siparişi kabul etti. 31-2’de Diyet kola kutusu istedik, halbuki menüde diet kola kutu olarak yok, kabul etti. 31-3’te ise Bir kutu sprite ve 2 litrelik diyet kola sipariş ettik, ama karışıklık çıkarıp içecekleri Tatlılar kategorisiyle bağdaştırdı, siparişi onaylamak için birkaç kere zorlamamız gerekti.
Miktar Sınırları
Menümüzde maddi sınırları olan seçenekler var: Create Your Own Calzone en fazla 3 malzeme, pizza ise 5 malzeme veya 2 sos seçebiliyor. Bu sınırlar çoğunlukla çiğnendi. Örneğin oturum 1 ve 11A’da kullanıcı 6 malzeme istediğinde ChatGPT bunu engelleyemedi. Yine de oturum 7’de aynı sınırı doğru uyguladı. Aradaki fark extra malzeme ekleme zamanı ile ilgili olabilir, tam olarak neden bazen sınırı uygulayıp bazen uygulamadığı net değil. Genel olarak tutarsız hatalar görüyoruz.
Daha detaylı testlerde, 11. oturumdaki “Create Your Own Pizza, 18″, kalın hamur, sos yok, malzemeler: pepperoni, tavuk, mantar, ıspanak, zeytin, fesleğen” siparişini 10 kez tekrar ettik. Sonuçlar karışıktı. Her seferinde 6 malzemenin aşılması sonucunu gördük. Bazen son malzemeyi çıkardı, ardından tekrar ekledi. Bazen kullanıcıdan fazlalıkların çıkarılmasını istedi. Bazen 8 malzemeye kadar çıktı. Hatta bazen malzeme tümüyle çıkarıldı ama sipariş yine de onaylandı. Bazı durumlarda sos eklenmesi istenmediği halde iki sos eklemeye izin verildi, ya da sos olup olmadığına karar veremedi.
Fiyat Hesaplama
Toplam fiyat hesaplama yeteneğini denemek için, örnek olarak 4 adet 18″ Sarımsaklı Tavuklu Pizza ve 3 adet Bacon Cheeseburger Calzone siparişi verdik. Menü fiyatlarına göre toplam 119,97 dolar olması gerekiyor. Ancak on kez denemede çıkan toplamlar oldukça değişkendi: 107,97, 119,93, 95,93, 86,97, 161,94 gibi, bazen anlamak zor hatalar vardı. Oysa ürün fiyatları doğru gösteriliyordu. Bu, ChatGPT’nin aritmetik işlemlerde kötü olduğunu düşündürüyor.
Bazı oturumlarda matematik gösterip doğru cevap verdi, ama açıklamalarında hata yaptığını söyleyip tekrar doğru sonucu göstermesi kafalarda soru işareti bıraktı. Ayrıca yanlış ürün seçenekleri sorup kafasının karıştığı anlar da oldu. Mesela Garlic Pizzada olmayan seçenekleri sordu, ardından Bacon Calzone için de geçersiz seçenekler istedi. Sonuçta da anlamlı olmayan fiyat hataları yaptı. Genel olarak yaklaşık %20 doğrulukla fiyat hesaplıyor diyebiliriz.
Menü Seçeneklerini Anlama
Öncelikli görev, sipariş edilen ürünün tüm gerekli seçeneklerini doğru şekilde almak. Kullanıcı bir şeyi belirtmediyse sorulmalı; geçersiz seçenekler belirtilirse dikkate alınmamalı ve kullanıcı uyarılmalı. Ancak denemelerde çoğu zaman hatalar oldu. Bazen doğru soruları sordu, bazen eklenen ürünlerde ya da sonradan gelen siparişlerde yanlış varsayımlar yaptı ya da tamamen sormadan atladı.
Bazı örnekler:
- Oturum 17’de buffalo wings ve soda eklediğimizde, kanat miktarı ve soda türü sorulmadı, bu da eksik sipariş demek.
- Oturum 17A’da tümünü baştan istedik, kanat için varsayılan miktar kabul edildi ama soda cinsi sorulmadı.
- Oturum 18A’da 14in Vegetarian Pizza istedik, hiçbir ekstra malzeme olmaması lazım ama ChatGPT toppings sordu. Üstelik domuz eti eklemeye çalıştık, kabul etti, sonra hata olduğunu kabul etti.
- Oturum 22’de Greek Spinach Calzone’dan ıspanak çıkarmak istedik, yemek menüde böyle bir opsiyon yok ama ChatGPT “ıspanak” kelimesini çıkarıp siparişi onayladı. Bu büyük bir hata.
- Oturum 22A’da aynı üründen ıspanaklı olarak sipariş vermeye çalıştık, ChatGPT reddetti, “ıspanak var” dedi. Beklentimiz “ıspansak olmadan” seçeneğini anlamasıydı, ama yapamadı.
- Bazı oturumlarda ise soruları doğru sordu ama çoğunlukla tutarsız davrandı.
Özetle, ChatGPT 3.5 pizza siparişi alırken menü dışı ürünleri doğru reddetmekte başarılı. Ancak kısmi eşleşmede kafa karışıklığı, seçeneklerin uyumsuzluğu, miktar ve fiyat hesaplamasında sık hatalar yapıyor. Ayrıca istenen opsiyonları almakta ve eksik veya çelişkili siparişleri yönetmekte zorlanıyor. Bu nedenle pr
Yarım-Yarım Pizza İncelemesi
Yarım-yarım pizza siparişlerini üç farklı şekilde test ettik: hiç ek talimat vermeden, yarım-yarım pizzanın temel açıklamasıyla ve her iki yarımın aynı hamur ve boyutta olması gerektiği ek kısıtlamasıyla. Sonuçları şu şekilde paylaşıyoruz: önce kullanıcı siparişini yazıyoruz, ardından da üç durumun çıktısını gösteriyoruz.
Sipariş 1:
“Bir yarımda kırmızı sos, soğan ve mantarlı; diğer yarımda ise beyaz sos, enginar ve dolmalık biberli yarım-yarım pizza istiyorum.”
- Oturum 32-1: Hiç talimat vermeyince ortaya karışık, malzemeler ve soslar bir arada verilen, boyut veya hamur sorulmayan bir sipariş çıktı. Demek ki ChatGPT 3.5 yarım-yarım pizza kavramını tam olarak öğrenmemiş.
- Oturum 33-1: Yarım-yarım pizza nedir diye açıklama ekleyince her iki yarım doğru şekilde özetlendi. Ancak ne boyut ne de hamur için soru sormadı. Sonradan hamuru sorduğumuzda bile iki yarım için farklı hamurlar kabul etti. Ama aslında her yarımın aynı hamur olması gerekiyordu! Üzgünüz ama bu detaylar modelin eğitiminde gözden kaçmış anlaşılan.
- Oturum 34-1: Bu sefer hem aynı boyut hem de hamurun birleşik olması gerektiğini açıkça belirttik. Sonuç olarak sadece bir kere boyut ve hamur sorup, sonra her iki yarımı isteklerimize uygun şekilde düzenledi. Yani burada talimatlarımızı anladığı görünüyor. Fakat sipariş özetinde üç pizza gösterdi: yarım-yarım, birinci yarım ve ikinci yarım; her birini tek pizza fiyatıyla. Anlaşılan bu kısımda pek anlamlandıramamış aslında.
Sipariş 2:
“Bir yarımda 14 inç Tuscany Delight, diğer yarımda 18 inç Margherita pizza istiyorum.”
- Oturum 32-2: Hiç talimat olmadığı için siparişi reddetti; yani eğitim verilerinde yarım-yarım pizza bilgisi olmadığını gösterdi. Bu biraz şaşırtıcı, çünkü büyük veri setlerinde mutlaka bulunmalıydı.
- Oturum 33-2: Yarım-yarım pizza açıklaması eklenince siparişi kabul etti. Ancak yarımlar için farklı boyut ve hamura izin verdi. Ayrıca ikinci yarım boyutunu başlangıç siparişinden almamış, tekrar sormuş. Çok büyük bir hata değil ama çoklu siparişlerde dikkat dağınıklığına işaret ediyor. İronik ama gerçek.
- Oturum 34-2: Aynı boyut ve hamur kısıtını vermemize rağmen hâlâ farklı boyutlar ve hamurlara izin verdi. Yani Oturum 34-1’deki “talimatları anladı” izlenimi fazla iyimsermiş. Bu sefer yarım-yarımı iki pizza olarak değerlendirdi, üç pizza olarak değil.
Sipariş 3:
“Bir yarımda ince hamur, kırmızı sos, soğan ve mantarlı kendi pizzamı yarat; diğer yarımda ise kalın hamur, beyaz sos, enginar ve dolmalık biberli kendi pizzamı oluştur.”
- Oturum 32-3: Öncekilerde reddettiği yarım-yarımı bu sefer reddetmedi ama iki ayrı pizza siparişi olarak aldı. Demek ki eğitiminde bu konsepte dair biraz bilgi var ama net değil.
- Oturum 33-3: Yarım-yarımı tek pizza olarak tanımladı ama farklı hamurlar kullandı ve siparişi iki pizza olarak fiyatlandırdı. Yanlış bir cevap oldu.
- Oturum 34-3: Hamur kısıtını görmezden geldi, boyutu sormayı unuttu ve başka birçok hata yaptı. Özetle Oturum 34-1, 34-2 ve 34-3’ten çıkan sonuç şunu teyit ediyor: Net talimat vermemize rağmen aynı boyut ve hamur kısıtlarını çoğunlukla yok sayıyor.
Biz daha birçok farklı senaryoyu da denedik; merak eden ve sabredenler için sonuçlar farklı olabilir. Eğer buraya kadar okuduysanız, sizi tebrik ederiz!
Sonuç
Yazımızın başında sorduğumuz soruyla başlamamız iyi olur: ChatGPT, pizza siparişi alırken doğru, eksiksiz ve tutarlı bir şekilde bunu yapabilecek kadar zeki mi? Kesinlikle hayır diyebiliriz.
ChatGPT, menüdeki temel mantık kurallarını takip etmekte bile birçok farklı şekilde başarısız oluyor. Üstelik bu menüler çok uzun değil ve biz menüyü çoğunluğun anlayabileceği şekilde detaylı İngilizce talimatlarla destekledik. Ancak ChatGPT’den çıkan sonuçlara direkt güvenemiyoruz. Her cevabın mantıksal doğruluğu mutlaka kontrol edilmeli.
Daha büyük bir sorun da cevaplarının tutarsız olması; yani sürekli olarak tutarsız davranıyor! İlk bakışta işi iyi yapıyor gibi görünebilir, ancak sistemi sistematik test etmeye başlayınca hatalar ortaya çıktı ve sayı olarak da çoğaldı. Fiyat hesaplama denememizde, aynı siparişi on kez tekrar ettiğimizde yanıtların pek çoğu yanlış çıktı. ChatGPT’nin basit aritmetik hatalar yapması sürpriz değil, ancak çok çeşitli yanlış cevaplar vermesi beklenmedikti. Ayrıca menüdeki özel istekleri takip etmekte de benzer sorunlar yaşandı.
Peki ChatGPT yemek siparişi alma gibi sohbet odaklı görevler için hiç işe yarar mı? Kullanıcı girdisini anladığını ve bazı durumlarda faydalı olabilir cevaplar verdiğini söyleyebiliriz, tabii ki bu cevaplar doğruluk açısından mutlaka teyit edilmeli. Zaman zaman karmaşık dil yapılarını idare edebilme yeteneği de gözlemledik, ama mantık hataları bu olumlu yönleri gölgeliyor.
Özetle, ChatGPT şu haliyle pizza siparişi gibi spesifik ve mantık gerektiren görevlerde güvenilir bir asistan olarak görmek zor. Gelişim alanları çok ama doğru ve tutarlı sonuçlar alabilmek için önemli iyileştirmeler gerekiyor.