Apa yang saya lakukan mungkin sepenuhnya mungkin dengan LLM generasi berikutnya yang berpikir besar hanya mengamati apa yang terjadi dan membingkai tugasnya sebagai memberikan "nasihat" kepada model RL yang lebih kecil melalui fungsi hadiah tambahan.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
11 Suka
Hadiah
11
6
Bagikan
Komentar
0/400
OnchainHolmes
· 07-31 18:07
Menemukan pemborosan sumber daya komputasi lagi.
Lihat AsliBalas0
DaoGovernanceOfficer
· 07-30 22:34
*sigh* paradigma perlu pengujian empiris...
Lihat AsliBalas0
Whale_Whisperer
· 07-29 23:28
Ya, bisa dibilang itu hanya menyalin dan menempel.
Lihat AsliBalas0
AllInAlice
· 07-29 23:26
Kedengarannya merepotkan sekali
Lihat AsliBalas0
SatoshiLegend
· 07-29 23:17
Menghapus data hanya permukaan, algoritme yang dalam adalah kunci.
Apa yang saya lakukan mungkin sepenuhnya mungkin dengan LLM generasi berikutnya yang berpikir besar hanya mengamati apa yang terjadi dan membingkai tugasnya sebagai memberikan "nasihat" kepada model RL yang lebih kecil melalui fungsi hadiah tambahan.