Anthropic OpenAI’ı geçti: Opus 4.8 ve daha uzun süre çalışan ajanlara yapılan yatırım

 

Anthropic OpenAI’ı geçti: Opus 4.8 ve daha uzun süre çalışan ajanlara yapılan yatırım

Siyah zeminde birbirine bağlı parlayan küplerden oluşan bir ağ

28 Mayıs Perşembe günü, Anthropic aynı haber döngüsünde iki şey yaptı. Claude Opus 4.8’i çıkardı ve 965 milyar dolarlık değerlemeyle 65 milyar dolarlık bir seramaye artırımı duyurdu. Bu rakam, şirketi ilk kez OpenAI’ın önüne geçirdi. Manşetleri bu değerleme süsledi. Ama dikkatle okunmayı hak eden kısım, modelin kendisi.

965 Mr$
YATIRIM SONRASI Değerleme
47 Mr$
Bu Ayki Yıllık Gelir
4 kat
Daha Az Fark Edilmeyen Kod Hatası
3
ÖNEMLİ Bulut HİZMETİ, İlk ÖNCÜ Model

Bir YZ şirketi işletiyorum. Değerleme rakamları, üzerine aksiyon alabileceğim bir unsur değil. Önemli olan modelin piyasaya sürülmesi. Bu yüzden önce Opus 4.8 duyurusunu okudum, sonra da fonlama duyurusunu; bence çoğu geliştirici de aynısını yapmalı. Para, yetkinliğin peşinden gider ve bu hafta asıl hareketlilik yetkinlik alanında yaşandı.

İşte ana fikir. Anthropic daha akıllı bir sohbet robotu satmıyor. Görevine daha uzun süre odaklanan, kendi çalışmasını daha dürüst bir şekilde kontrol eden ve kendi kopyalarıyla paralel olarak çalışan bir ajan satıyor. Bu farklı bir ürün kategorisi ve gelirleri değerlemeden daha iyi açıklıyor.

1. 28 Mayıs’ta duyurulanlar

Aynı gün iki duyuru. Anthropic’in en üst düzey model serisinin güncellemesi olan Claude Opus 4.8. Ve bir H Serisi yatırım turu: Perşembe günü açıklanan, 965 milyar dolarlık yatırım sonrası değerlemeyle 65 milyar dolarlık fon toplandı.

Bu değerleme, hikayenin gidişatı açısından önemli bir eşiği aştı. Anthropic’in Şubat ayındaki son özel sektör değerlemesi 380 milyar dolardı. OpenAI’nin ise Mart ayında 852 milyar dolardı. 965 milyar dolarlık yeni rakam, Anthropic’i özel sektör piyasasında ilk kez OpenAI’nin önüne geçirdi. Tur, Altimeter, Dragoneer, Greenoaks ve Sequoia tarafından yönetildi; bunların arkasında uzun bir kurum listesi vardı ve bu tutarın yaklaşık 15 milyar doları, Amazon’un Nisan ayında açıkladığı 5 milyar dolar da dahil olmak üzere, daha önce taahhüt edilmiş hiper ölçekli şirketlerin fonlarından geldi.

Bağlam bu. Şimdi asıl önemsediğim kısma gelelim.

2. Opus 4.8, zekâ değil özerklik hikâyesi

Modelin piyasaya sürüldüğünde nasıl tanımlandığına bir bakın. Opus 4.8’in “daha keskin bir muhakeme yeteneğine, ilerlemesi konusunda daha dürüst bir yaklaşıma” sahip olduğu ve “öncüllerinden daha uzun süre bağımsız olarak çalışabildiği” belirtiliyor (9to5Mac). Anthropic’in kendi web sayfası da aynı noktaya değiniyor ve modelin yargı yeteneğinin daha keskin, ilerlemesi konusunda daha dürüst olduğunu belirtiyor. Bu tanımlamada neyin eksik olduğuna dikkat edin. Tek bir cevapta daha akıllı olduğuna dair bir iddia yok. İddia, süre ve kendine karşı dürüstlükle ilgili.

Bunu destekleyen iki somut yetenek var. Anthropic, modelin “başlangıçtan birleştirmeye kadar yüz binlerce satırlık kodda kod tabanı ölçeğinde geçişler” gerçekleştirebileceğini ve “tek bir oturumda yüzlerce paralel alt ajanla” çalışabileceğini söylüyor. Başlangıçtan birleştirmeye kadar olan geçiş, bir sohbet yanıtı değildir. Bu, yüzlerce karar noktası içeren, saatler süren bir iştir ve model, tüm bu karar noktalarında iş akışını sürdürebilme yeteneği ile pazarlanmaktadır.

“Kendine karşı dürüstlük” iddiasının arkasında bir rakam yatıyor. Anthropic, Opus 4.8’in “önceki sürümüne kıyasla, yazdığı koddaki hataların fark edilmeden geçip gitme olasılığının yaklaşık dört kat daha düşük” olduğunu belirtiyor. Bir ajanın hatalı bir işlevi kendinden emin bir şekilde yayınladığını gören herkes için bu ifade, herhangi bir performans testinden daha ilgi çekicidir. Kendi hatalarını tespit eden bir ajanı, çalışır durumda bırakabilirsiniz.

Karşılaştırma ölçütleri de aynı yönde ilerledi. Modelin yayınlanan puan tablosuna göre, ajan kodlama Opus 4.7’deki %64,3’ten Opus 4.8’de %69,2’ye yükseldi ve araçlarla çok disiplinli akıl yürütme %54,7’den %57,9’a çıktı (9to5Mac, Anthropic’in rakamlarını aktararak). Anthropic, bu sıçramayı “mütevazı ama somut bir gelişme” olarak nitelendiriyor. Bu ifadedeki dürüstlüğü takdir ediyorum. İlginç kazanımlar, ham akıl yürütme sütunlarından ziyade ajansal sütunlarda yer alıyor.

Fiyatlandırma, Opus 4.7 ile aynı şekilde, milyon giriş jetonu başına 5 dolar ve milyon çıktı başına 25 dolar olarak sabit kaldı. Hızlı mod, eskisinden üç kat daha ucuza mal olurken 2,5 kat daha hızlı çalıştığı şeklinde tanımlanıyor. “Ekstra” ve “maksimum” adlı yeni çaba ayarları, daha zor problemler için daha fazla token harcamanıza olanak tanıyor. Bunların hiçbiri göz alıcı değil. Hepsi aynı alıcıya işaret ediyor: tek bir mesajın maliyetinden çok, tamamlanmış bir görevin maliyetini önemseyen, uzun süreli ajan işleri yürüten biri.

3. Büyüme sohbet üzerinden değil, kod üzerinden gerçekleşir

Karanlık ekranda aşağı akan yeşil kod karakterleri, Matrix tarzı

Bu hafta okuduğum en yararlı bakış açısı, sermaye artırımıyla ilgili haberlerden çıktı: Anthropic’in büyümesi sohbetten değil, koddan kaynaklanıyor. Yıllık gelir tahmini bu ayın başlarında 47 milyar doları aştı; bu rakam bir yıl önce yaklaşık 10 milyar dolardı. Bu sıçramanın arkasındaki itici güç, bir tüketici asistanı değil, Claude Code ve geliştirici platformu.

Bu üzerinde düşünmeye değer bir konu. OpenAI’nin markası, yüz milyonlarca kullanıcısı olan bir tüketici ürünü olan ChatGPT’dir. Anthropic’in buna eşdeğer bir tüketici hit ürünü yok, ancak yine de değerleme açısından OpenAI’yi geçti. Buradan çıkarılacak ders, geliştiricilere ve işletmelere otonom çalışma satmanın, herkese sohbet satmaktan daha büyük bir iş olabileceğidir.

Anthropic’in finans direktörü, şirketin “Claude Code ve Cowork gibi araçları daha kullanışlı, daha güçlü ve daha uyarlanabilir hale getirmek” için çalıştığını belirterek ürün yelpazesini net bir şekilde ortaya koydu. Bunlar sohbet pencerelerinden ziyade ajan araçlarıdır. Gelir dağılımı, piyasanın gerçekte hangi ürün için para ödediğini gösterir.

Bunun altında bir dağıtım gerçeği de yatıyor. Anthropic, Claude’un artık “dünyanın en büyük üç bulut platformu olan Amazon Web Services, Google Cloud ve Microsoft Azure’da kullanılabilen ilk öncü model” olduğunu söylüyor. Eğer bu bulut platformlarından herhangi birine zaten bağlı bir kurumsal kullanıcıysanız, Claude artık birinci taraf bir seçenek haline geldi. Bu, tedarik sürecinden bir adımı ortadan kaldırıyor ve kurumsal AI anlaşmaları genellikle tedarik aşamalarında başarısız oluyor.

4. 965 milyar dolar aslında neyin sinyali

Değerlemeyi bir ölçüt olarak pek güvenilir bulmuyorum. Bu ölçüt, bir ürünün ne işe yaradığından ziyade yatırımcıların ne kadar ödemeye hazır olduğunu gösterir. Ancak bu turun seyrinden gerçek bir şey anlaşılıyor.

Değerleme, yaklaşık üç ayda 380 milyar dolardan 965 milyar dolara çıkarak iki katından fazla arttı. Yatırımcılar bu primi bir sohbet robotu için ödemiyorlar. Bu primi, ajan ürünlerinin desteğiyle bir yıl içinde yaklaşık 10 milyar dolardan 47 milyar dolara çıkan bir gelir eğrisi için ödüyorlar. Değerleme, ajan gelirinin artmaya devam edeceğine dair bir bahistir.

Hiper ölçekli şirketlerin yatırdığı para, manşetteki rakamdan daha önemlidir. Bu turda yer alan Amazon’un 5 milyar doları pasif bir yatırım değildir. Bu, aynı zamanda yeniden sattığı bir modele daha fazla yatırım yapan bir müşteri ve altyapı ortağıdır. Bulut sağlayıcınız aynı zamanda yatırımcınız ve dağıtım kanalınız olduğunda, bu ilişki, salt finansal bir turda olmadığı şekilde kalıcıdır.

Anthropic, bu paranın “güvenlik ve yorumlanabilirlik araştırmalarına”, daha fazla hesaplama gücüne ve ürünlerin ve ortaklıkların ölçeklendirilmesine harcanacağını söylüyor. Dikkat edilmesi gereken alan hesaplama gücüdür. Öncü modeller hesaplama gücüyle sınırlıdır ve 65 milyar dolarlık fon toplama, büyük ölçüde bir hesaplama gücü satın alma siparişidir.

5. Karşı çıkacağım noktalar

Zayıf yönler konusunda dürüst olmak istiyorum, çünkü bu haftaki haberler çoğunlukla övgü dolu bir tondaydı.

Değerleme-gelir farkı büyük. 47 milyar dolarlık yıllık gelirle 965 milyar dolarlık değerleme, yıllık gelirin yaklaşık 20 katıdır ve bu gelir o kadar hızlı büyüyor ki, gerçek ileriye dönük kat sayısı daha düşük. Yine de, bu fiyatlandırma yıllarca sürecek hiper büyümeyi hesaba katıyor. Ajan gelir eğrisi birazcık bile bükülürse, bu rakam abartılı görünür.

“Mütevazı ama somut” ifadesi iki yönlüdür. Anthropic’in Opus 4.8 kazanımlarına ilişkin kendi açıklaması ölçülüdür. Ajan kodlamasındaki %64,3’ten %69,2’ye sıçrama gerçek ve yararlıdır, ancak bu bir adım atlama değil, yinelemedir. Sürümden sürüme dramatik sıçramaların yaşandığı dönem, istikrarlı ve kademeli bir iyileşmeye dönüşüyor olabilir; bu da model yükseltmeleri konusunda planlama yapma şeklini değiştirir.

Hiper ölçekli şirketler (bulut) söz konusu olduğunda konsantrasyon riski iki yönlüdür. Üç bulutun hepsinde de ilk öncü model olmak bir güçtür. Amazon ile finansal olarak iç içe olmak ve hesaplama konusunda aynı birkaç sağlayıcıya bağımlı olmak ise bir bağımlılıktır. Bulut ortakları aynı anda hem müşteri, hem yatırımcı, hem de tedarikçidir. Bu, bugün Anthropic için bir avantajdır, ancak öncelikler birbirinden ayrılırsa bir kısıtlama haline gelir.

6. İzlediğim üç şey

“Daha uzun süre çalışma” özelliğinin demo dışında da geçerli olup olmadığı. Kod tabanı geçişi ve paralel alt ajan iddiaları güçlü. Test, bu özelliklerin, özenle seçilmiş kıyaslama testleri yerine, karmaşık üretim depolarıyla temas halinde hayatta kalıp kalmayacağıdır. Opus 4.8’in saatlerce süren işleri gözetimsiz çalıştırdığına dair ilk bağımsız raporlar, puan tablosundan daha fazlasını bize anlatacaktır.

Kendini denetleme sayısının sahadaki hali. “Kendi hatalarını gözden kaçırma olasılığı dört kat daha az” ifadesi, pratikte doğruysa, sürümdeki en önemli iddiadır. Kendi hatalarını güvenilir bir şekilde yakalayan bir ajan, denetimli ve denetimsiz dağıtım arasındaki farkı yaratır. Bu rakamı doğrulayabilecek veya çürütebilecek geliştiriciler arayacağım.

OpenAI’ın yanıtı. OpenAI’nin halka arz hazırlığı yaptığı ve tüketici erişiminde hala lider olduğu bildiriliyor. Özel değerlemede geride kalmak, karşı bir hamleyi tetikleyen türden bir şeydir. Bir sonraki büyük OpenAI sürümü, haklı olsun ya da olmasın, bu haftaya bir yanıt olarak okunacaktır.

TAO AI LAB TAO AI LAB Perspektifi

TAO AI LAB olarak sesli ajanlar ve agentic iş akışları kuruyoruz, büyük veri üzerinden tahminlerde bulunuyoruz. Dolayısıyla “daha uzun süre bağımsız çalışma” üzerine satılan bir model, her gün uğraştığımız probleme doğrudan denk geliyor. Üretim ortamındaki bir ajanın en zor kısmı, zekice tek bir yanıt üretmenin ötesindedir: uzun bir görev boyunca tutarlı kalmak, sapmadan, döngüye girmeden veya sessizce yanlış bir şey göndermeden çalışmaktır.

Benim bakış açımdan geliştiriciler için üç çıkarım.

Birincisi, ürün sorusu “cevap başına ne kadar akıllı”dan “ne kadar süre gözetimsiz çalışabilir”e kayıyor. Opus 4.8’in kendi kendine dürüstlük iddiası geçerliyse, bir ajanın denetim maliyeti düşer ve denetim maliyeti, ajanların işletme maliyetlerinin büyük bir kısmını oluşturur. Sistemlerimizi bir ajanın hata yapacağını varsayarak tasarlıyoruz; bu nedenle kendi hatalarının daha fazlasını yakalayan bir model, hata işleme bütçemizi doğrudan değiştirir.

İkincisi, “sohbet değil, kod” içselleştirilmeye değer bir sinyaldir. Para, konuşmadan çok otonom çalışmada yatmaktadır. Bir sesli asistan için bu, değerin hoş görünmekten ziyade rezervasyonu tamamlamak, talebi çözmek ve kayıt sistemini güncellemekte yattığı anlamına gelir. Bu ayrımı, geliştirdiğimiz şeyin merkezinde tutmaya çalışıyoruz.

Üçüncüsü, Claude’un üç büyük bulutun tamamında yerel olması, küçük laboratuvarlar için olduğu kadar işletmeler için de önemlidir. Bu, prototipini geliştirdiğimiz modelin, gelecekteki bir kurumsal müşterinin mevcut bulut sözleşmesi içinde benimseyebileceği modelle aynı olduğu anlamına gelir. Prototip aşamasından dağıtıma kadar olan bu süreklilik nadirdir ve bir sağlayıcıya güvenme riskini azaltır.

Üç sinyal:

  • Token başına maliyet yerine, tamamlanan iş başına maliyeti optimize edin. Opus 4.8’in sabit fiyatı ve daha ucuz fast mode’u, işi bitiren ajanları ödüllendiriyor. Sisteminiz mesaj başına ölçülüyorsa, bir ajan ekonomisi için yanlış şeyi ölçüyorsunuz.
  • Kendini denetleyen ajanlar için tasarlayın. “Fark edilmeyen hatalar dört kat azaldı” iddiası, modellerin gittiği yönü gösteriyor. Ajanlarınızı kendi kendini doğrulamayı bekleyecek ve kullanacak şekilde kurgulayın ki, modeller iyileştikçe kazanımı siz de devralın.
  • Model seçimini, bulutunuza bağlı bir yönlendirme kararı olarak ele alın. Claude AWS, Azure ve Google Cloud’da yerel olarak çalışmasıyla, sağlayıcıya bağımlılık eskisine göre daha az önem kazanıyor. Verilerinizin zaten bulunduğu doğru modele yönlendirme yapabilecek şekilde tasarım yapın.

Sıkça Sorulan Sorular

Claude Opus 4.8 nedir?

Anthropic’in en üst düzey modeli olan ve 28 Mayıs 2026’da piyasaya sürülen bu ürün, daha uzun süreli otonom çalışma etrafında konumlandırılmıştır. Anthropic, bu modeli daha keskin bir yargı yeteneğine ve daha uzun süre bağımsız çalışabilme özelliğine sahip olarak tanımlıyor ve kendi kodundaki hataların fark edilmeden geçme olasılığının Opus 4.7’ye göre yaklaşık dört kat daha düşük olduğunu söylüyor.

Anthropic ne kadar yatırım topladı ve hangi değerlemeyle?

Anthropic, 28 Mayıs 2026’da açıklanan H Serisi yatırım turunda 965 milyar dolarlık piyasa sonrası değerlemeyle 65 milyar dolar yatırım aldı. Bu rakam, özel piyasada OpenAI’nin Mart ayındaki 852 milyar dolarlık değerlemesinin önüne ilk kez geçmesini sağladı.

Anthropic’in büyümesi neden “kod, sohbet değil” olarak tanımlanıyor?

Bu ayki yıllık gelirleri 47 milyar doları aştı ve bu gelirin büyük kısmı tüketici sohbet robotundan ziyade Claude Code ve geliştirici platformundan kaynaklanıyor. Gelir motoru, konuşmadan ziyade ajan ve kodlama ürünleridir.

Claude, AWS, Azure ve Google Cloud’da kullanılabiliyor mu?

Evet. Anthropic, Claude’un en büyük üç bulut platformunun üçünde de sunulan ilk öncü model olduğunu söylüyor; bu da kurumların onu mevcut bulut sözleşmeleri içinde benimsemesine imkân tanıyor.

Opus 4.8’in kıyaslama kazanımları ne kadar büyük?

Opus 4.7’ye kıyasla, ajan tabanlı kodlama %64,3’ten %69,2’ye, araçlarla çok disiplinli akıl yürütme ise %54,7’den %57,9’a yükseldi. Anthropic, yükseltmeyi “mütevazı ama somut bir iyileştirme” olarak nitelendiriyor ve ajan tabanlı görevlerde daha büyük kazanımlar elde edildiğini belirtiyor.

Sıra sizde

Sürekli aklıma gelen soru şu: Kendi çalışmalarınız için şu anda hangisi daha önemli: daha akıllıca tek bir cevap veren bir model mi, yoksa uzun bir görevi sapmadan, gözetimsiz olarak çalıştırabilen bir model mi? Bunlar aynı model değil ve cevap, aslında ne inşa ettiğiniz hakkında çok şey söylüyor.

Ve eğer Opus 4.8’i gerçek bir işte çalıştırdıysanız: “daha uzun süre çalışıyor” ve “kendi hatalarını yakalıyor” iddiaları geçerli miydi, yoksa çöktü mü? Gerçek depolardan gelen gerçek raporlar, herhangi bir kıyaslamadan daha değerlidir.

Düşüncelerinizi yorumlara yazın. Hepsini okuyorum ve yanıtlıyorum.

Kaynaklar:

Leave A Comment