O que estou a fazer é provavelmente totalmente possível com um LLM de próxima geração de grande pensamento a observar o que acontece e a moldar a sua tarefa como dar "conselhos" ao modelo RL menor através de uma função de recompensa adicional.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
9 Curtidas
Recompensa
9
5
Compartilhar
Comentário
0/400
DaoGovernanceOfficer
· 15h atrás
*suspiro* o paradigma precisa de testes empíricos...
Ver originalResponder0
Whale_Whisperer
· 07-29 23:28
Sim, em termos simples, é só copiar e colar.
Ver originalResponder0
AllInAlice
· 07-29 23:26
Parece tão complicado.
Ver originalResponder0
SatoshiLegend
· 07-29 23:17
Limpar os dados é apenas a superfície, o algoritmo profundo é a chave.
O que estou a fazer é provavelmente totalmente possível com um LLM de próxima geração de grande pensamento a observar o que acontece e a moldar a sua tarefa como dar "conselhos" ao modelo RL menor através de uma função de recompensa adicional.