O que estou a fazer é provavelmente totalmente possível com um LLM de próxima geração de grande pensamento a observar o que acontece e a moldar a sua tarefa como dar "conselhos" ao modelo RL menor através de uma função de recompensa adicional.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
11 gostos
Recompensa
11
6
Partilhar
Comentar
0/400
OnchainHolmes
· 18h atrás
Encontrámos mais um desperdício de recursos computacionais.
Ver originalResponder0
DaoGovernanceOfficer
· 07-30 22:34
*suspiro* o paradigma precisa de testes empíricos...
Ver originalResponder0
Whale_Whisperer
· 07-29 23:28
Sim, em termos simples, é só copiar e colar.
Ver originalResponder0
AllInAlice
· 07-29 23:26
Parece tão complicado.
Ver originalResponder0
SatoshiLegend
· 07-29 23:17
Limpar os dados é apenas a superfície, o algoritmo profundo é a chave.
O que estou a fazer é provavelmente totalmente possível com um LLM de próxima geração de grande pensamento a observar o que acontece e a moldar a sua tarefa como dar "conselhos" ao modelo RL menor através de uma função de recompensa adicional.