Ce que je fais est probablement totalement possible avec un LLM de prochaine génération ayant une grande vision, observant ce qui se passe et cadrant sa tâche comme donner au plus petit modèle RL des "conseils" à travers une fonction de récompense supplémentaire.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
11 J'aime
Récompense
11
6
Partager
Commentaire
0/400
OnchainHolmes
· Il y a 17h
Encore découvert un gaspillage de ressources de calcul
Voir l'originalRépondre0
DaoGovernanceOfficer
· 07-30 22:34
*sigh* le paradigme a besoin de tests empiriques...
Voir l'originalRépondre0
Whale_Whisperer
· 07-29 23:28
Eh, pour le dire simplement, c'est juste copier-coller.
Voir l'originalRépondre0
AllInAlice
· 07-29 23:26
Ça a l'air compliqué.
Voir l'originalRépondre0
SatoshiLegend
· 07-29 23:17
La remise à zéro des données n'est que la surface, l'algorithme en profondeur est la clé.
Voir l'originalRépondre0
LiquiditySurfer
· 07-29 22:59
Cette combinaison veut encore faire de l'Arbitrage.
Ce que je fais est probablement totalement possible avec un LLM de prochaine génération ayant une grande vision, observant ce qui se passe et cadrant sa tâche comme donner au plus petit modèle RL des "conseils" à travers une fonction de récompense supplémentaire.