
OpenAI, perusahaan terkemuka dalam pengembangan kecerdasan buatan, saat ini berada di tengah kontroversi terkait penilaian model terbaru mereka, o3. Dalam peluncurannya pada bulan Desember, OpenAI mengklaim bahwa model tersebut dapat menjawab lebih dari 25% pertanyaan dari FrontierMath, sebuah set soal matematika tingkat lanjut. Angka tersebut, jika benar, jelas mengungguli pesaing terdekatnya yang hanya mencapai sekitar 2%. Namun, hasil tersebut segera memicu perdebatan setelah lembaga penelitian independen, Epoch AI, merilis studi yang menunjukkan hasil yang jauh lebih rendah.
Mark Chen, kepala peneliti di OpenAI, menjelaskan bahwa o3 tampil dengan performa luar biasa dalam pengaturan komputasi yang agresif, sehingga mampu memperoleh skor tinggi dalam pengujian internal mereka. “Saat ini, semua penawaran di luar sana memiliki kurang dari 2%. Kami melihat [secara internal], dengan o3 dalam pengaturan komputasi waktu pengujian yang agresif, kami dapat memperoleh lebih dari 25%,” ujarnya dalam sebuah acara lansiran media. Namun, klaim ini dipertanyakan setelah Epoch AI menemukan bahwa dalam pengujian mereka, o3 hanya mencapai skor sekitar 10%.
Rincian dari hasil penelitian Epoch menunjukkan adanya ketidakcocokan mendasar antara klaim OpenAI dan hasil yang sebenarnya. Epoch mengonfirmasi bahwa meskipun perbedaan hasil ada, mereka melihat bahwa skor yang dipublikasikan OpenAI pada bulan Desember mencerminkan batas bawah yang sejalan dengan data yang mereka amati. Temuan ini menciptakan pertanyaan tentang transparansi dan akurasi dari publikasi OpenAI.
Epoch mencatat bahwa perbedaan hasil ini mungkin disebabkan oleh beberapa faktor, termasuk metode pengujian yang berbeda, penggunaan komunitas data yang tidak setara, dan pengaturan komputasi yang lebih rumit yang digunakan oleh OpenAI dalam evaluasi internalnya. “Perbedaan antara hasil kami dan OpenAI mungkin disebabkan oleh OpenAI yang mengevaluasi dengan perancah internal yang lebih kuat, menggunakan lebih banyak waktu pengujian, atau karena hasil tersebut dijalankan pada subset FrontierMath yang berbeda,” jelas pihak Epoch.
Sebuah informasi tambahan dari ARC Prize Foundation menegaskan bahwa model o3 publik yang tersedia untuk umum adalah “model yang berbeda” dari yang diuji oleh mereka sebelumnya, menunjukkan adanya langkah penyesuaian untuk penggunaan komersial. Semua tingkat komputasi yang dirilis lebih kecil daripada versi yang mereka uji, menegaskan prediksi bahwa model dengan komputasi lebih tinggi cenderung mencapai skor yang lebih baik.
Kritik terhadap batasan yang dibeberkan oleh OpenAI menimbulkan pertanyaan etis mengenai keandalan proses penilaian dan integritas data yang dipublikasikan dalam dunia kecerdasan buatan. Dalam konteks bersaing ketat di industri teknologi, konsumen dan peneliti mengharapkan transparansi dalam pengujian dan hasil yang dipublikasikan.
Kemunculan laporan ini menjadi momentum penting bagi stakeholders, mulai dari pengembang AI hingga konsumen yang mengandalkan teknologi ini untuk berbagai aplikasi. Sementara industri terus berinovasi dengan kecerdasan buatan, keputusan yang diambil oleh perusahaan tentang cara mereka melakukan pengukuran dan mempublikasikan hasil dapat memiliki dampak signifikan terhadap kepercayaan masyarakat.
Selain itu, perdebatan ini mengingatkan kita akan pentingnya kolaborasi antara lembaga riset independen dan perusahaan dalam mendorong perkembangan yang lebih transparan dalam sektor ini. Dengan adanya penelitian independen dan pengujian silang, diharapkan kualitas model AI yang dihasilkan dapat terus meningkat demi memenuhi kebutuhan pengguna yang semakin kompleks. Seiring dengan perkembangan ini, OpenAI dan perusahaan teknologi lainnya diharapkan untuk berpegang pada prinsip integritas dan akuntabilitas dalam pengembangan produk mereka di masa depan.