OpenAI, uzun süredir merakla beklenen yeni modeli o1’i (Strawberry) dün kullanıcılarla buluşturdu. O1, bir model ailesi olarak dikkat çekiyor ve hem o1-preview hem de daha küçük ve verimli bir model olan o1-mini, ChatGPT ve OpenAI API’si üzerinden kullanılmaya başlandı. Özellikle kod üretimi için optimize edilen o1-mini, daha az kaynakla daha hızlı sonuçlar sunuyor.
O1’in en dikkat çekici özelliklerinden biri, karmaşık bilimsel ve matematiksel problemleri çözme yeteneği. Model, GPQA Diamond benchmark testinde fizik, biyoloji ve kimya sorularında doktoralı uzmanlardan bile daha yüksek puan aldı. Şu an için sadece ChatGPT Plus ve Team aboneleri modele erişebiliyor. Kurumsal ve eğitim kullanıcıları ise önümüzdeki hafta başında erişim sağlayabilecek.
GPT-4o ile kıyaslandığında o1, bazı alanlarda daha basit kalabiliyor. Örneğin, o1 henüz internette gezinemiyor veya dosya analizi yapamıyor. Ancak görüntü analiz etme kapasitesi bulunmasına rağmen bu özellik test aşamasında devre dışı bırakıldı. Ayrıca modelin haftalık kullanımında o1-preview için 30 mesaj, o1-mini için ise 50 mesaj sınırı bulunuyor. Bununla birlikte, API kullanımında o1-preview, girdi başına 15 dolar, çıktı başına ise 60 dolarlık bir fiyat etiketiyle dikkat çekiyor.
OpenAI’a göre, o1’i diğer modellerden ayıran en büyük fark, yanıt vermeden önce düşünme kapasitesi. Bu özellik, makine öğreniminin bir alt dalı olan “düşünce zinciri” (CoT) yaklaşımıyla desteklenmiş. Bu teknik sayesinde model, karmaşık soruları daha küçük adımlara ayırarak çözebiliyor, bu da yanıtların doğruluğunu artırıyor.
OpenAI araştırmacılarından Noam Brown, modelin pekiştirmeli öğrenme teknikleri ile eğitildiğini ve her doğru cevapta ödüller, hatalı cevaplarda ise cezalar aldığını belirtti. Bu eğitim yöntemiyle o1, daha uzun düşünme sürelerine ihtiyaç duyduğu görevlerde daha başarılı sonuçlar elde ediyor.
O1, özellikle matematik problemlerinde etkileyici sonuçlar verdi. Uluslararası Matematik Olimpiyatı (IMO) eleme sınavında o1, soruların %83’ünü doğru yanıtladı. GPT-4o ise yalnızca %13’lük bir başarı yakalayabildi. Ayrıca o1, çevrimiçi kodlama yarışması Codeforces’ta katılımcıların %89’unu geride bırakarak DeepMind’ın AlphaCode 2 sisteminden daha iyi bir performans gösterdi.
Ancak o1’in bazı dezavantajları da var. Bazı kullanıcılar, modelin yanıt süresinin 10 saniyeyi aştığını ve özellikle zaman sınırlı görevlerde yavaş kaldığını belirtti. Ayrıca, modelin bazı oyunlarda takılabildiği ve zaman zaman yanıltıcı sonuçlar üretebildiği kaydedildi. Özellikle GPT-4o’ya kıyasla, o1’in halüsinasyon görme eğiliminin daha fazla olduğu ve bazen yanlış cevapları kabul etmekte zorlandığı tespit edildi.
OpenAI’ın rakibi Google DeepMind da bu alanda boş durmuyor. Araştırmacılar, modellerin hesaplama süresini artırarak ve yönlendirmeler yaparak, performansı ciddi ölçüde artırmanın mümkün olduğunu belirtti. OpenAI ise o1-mini’nin ücretsiz ChatGPT kullanıcılarına açılması için bir tarih üzerinde çalışıyor.
“Insight Partners, 10 Milyar Doların Üzerinde Yeni Fon Kapatmaya Yakın” haberimizin detaylarına buradan ulaşabilirsiniz!