Los datos son activos: DataFi abre un nuevo océano azul
El mundo está en una carrera por construir el mejor modelo base. Aunque la capacidad de computación y la arquitectura del modelo son importantes, la verdadera ventaja competitiva radica en los datos de entrenamiento. La noticia más destacada en el ámbito de la IA este mes es que Meta ha demostrado su poder, Zuckerberg ha reclutado talento y ha formado un lujoso equipo de IA compuesto principalmente por investigadores de origen chino. El líder es Alexander Wang, de 28 años, cuyo Scale AI tiene actualmente una valoración de 29 mil millones de dólares y proporciona servicios de datos a varios gigantes de la IA competidores, incluidos el ejército de EE. UU., OpenAI, Anthropic y Meta. El negocio principal de Scale AI es ofrecer una gran cantidad de datos etiquetados precisos.
El camino al éxito de Scale AI
La razón por la que Scale AI ha logrado destacar entre muchos unicornios es porque descubrió temprano la importancia de los datos en la industria de la IA.
La potencia de cálculo, el modelo y los datos son los tres pilares de un modelo de IA. Si comparamos un gran modelo con una persona, entonces el modelo es el cuerpo, la potencia de cálculo es la comida y los datos son el conocimiento/la información.
Durante el rápido desarrollo de los LLM, el enfoque de la industria ha cambiado de los modelos a la potencia de cálculo. Actualmente, la mayoría de los modelos han establecido el transformer como marco, con innovaciones ocasionales como MoE o MoRe; los principales actores han construido sus propios clústeres de supercomputación o han firmado acuerdos a largo plazo con proveedores de servicios en la nube para resolver los problemas de potencia de cálculo. Después de haber atendido las necesidades básicas de potencia de cálculo, la importancia de los datos ha ido cobrando cada vez más relevancia.
Scale AI se dedica a construir una base de datos sólida para modelos de IA, su negocio no solo incluye la minería de datos existentes, sino que también se enfoca en la generación de datos a largo plazo. La empresa forma equipos de entrenamiento de IA compuestos por expertos humanos de diferentes campos, para proporcionar datos de mayor calidad para el entrenamiento de modelos de IA.
Dos fases del entrenamiento del modelo
El entrenamiento del modelo se divide en dos partes: preentrenamiento y ajuste fino.
El preentrenamiento es un proceso similar al aprendizaje del habla de los bebés humanos, que requiere introducir en el modelo de IA una gran cantidad de información recopilada de textos, códigos y otros datos de Internet, permitiendo que el modelo aprenda de forma autónoma a dominar las habilidades básicas de comunicación.
El ajuste fino es similar a ir a la escuela, donde generalmente hay respuestas y direcciones claras sobre lo que está bien o mal. Diferentes "escuelas" pueden cultivar "talentos" con características distintas. A través de conjuntos de datos cuidadosamente preparados y específicos, dotamos al modelo de las capacidades que deseamos.
Por lo tanto, necesitamos dos tipos de datos:
Datos masivos que no requieren demasiada manipulación, provenientes principalmente de datos de arañas de grandes plataformas UGC, bases de datos de literatura pública, bases de datos privadas de empresas, etc.
Conjuntos de datos profesionales cuidadosamente diseñados y seleccionados, que requieren limpieza de datos, filtrado, etiquetado, retroalimentación manual y otros trabajos.
Estos dos tipos de conjuntos de datos constituyen el núcleo de la pista de AI Data. Actualmente, se considera generalmente que, a medida que la ventaja de la potencia de cálculo desaparece gradualmente, los datos se convertirán en la clave para que los fabricantes de grandes modelos mantengan su competitividad.
Con la mejora continua de las capacidades del modelo, diversos conjuntos de datos de entrenamiento más finos y especializados se convertirán en factores clave para determinar la capacidad del modelo. Si comparamos el entrenamiento del modelo con la formación de un experto en artes marciales, entonces un conjunto de datos de alta calidad es como el mejor manual de habilidades marciales.
A largo plazo, AI Data es una pista a largo plazo con un efecto bola de nieve. A medida que se acumulan los trabajos iniciales, los activos de datos tendrán la capacidad de interés compuesto, y su valor crecerá con el tiempo.
Web3 DataFi: El terreno ideal para los datos de IA
En comparación con las empresas de datos tradicionales, Web3 tiene ventajas naturales en el campo de los datos de IA, lo que ha dado lugar al concepto de DataFi.
En un escenario ideal, las ventajas de Web3 DataFi incluyen:
Los contratos inteligentes garantizan la soberanía, seguridad y privacidad de los datos.
La arquitectura distribuida atrae a la mano de obra global más adecuada
La blockchain ofrece ventajas claras de incentivos y liquidación.
Contribuye a construir un mercado de datos eficiente y abierto de una sola parada
Para los usuarios comunes, DataFi es el proyecto de IA descentralizada más fácil de participar. Los usuarios solo necesitan iniciar sesión en su billetera y pueden participar completando diversas tareas, como proporcionar datos, evaluar modelos, utilizar herramientas de IA para creaciones simples, participar en transacciones de datos, etc.
Proyectos potenciales de Web3 DataFi
Actualmente, varios proyectos de DataFi han recibido grandes financiamientos, a continuación se presentan algunos proyectos representativos:
Sahara AI: Dedicado a construir la infraestructura y el mercado de intercambio de IA descentralizada.
Yupp: plataforma de retroalimentación de modelos de IA, recopila las opiniones de los usuarios sobre la salida del modelo
Vana: convierte los datos personales de los usuarios en activos digitales monetizables.
Chainbase: Enfocado en datos en cadena, cubriendo más de 200 cadenas de bloques
Sapien: convierte el conocimiento humano en datos de entrenamiento de IA de alta calidad
Prisma X: Dedicado a construir una capa de coordinación abierta para robots
Masa: un proyecto de subred del ecosistema Bittensor que ofrece acceso a datos en tiempo real.
Irys: Enfocado en el almacenamiento de datos programables y cálculo
ORO: Empoderar a las personas comunes para contribuir a la IA
Gata: Capa de datos descentralizada que ofrece múltiples formas de participación de datos.
Estos proyectos actualmente tienen barreras generalmente bajas, pero a medida que se acumule la lealtad de los usuarios y del ecosistema, la ventaja de la plataforma se formará rápidamente. Los proyectos iniciales deben centrarse en los incentivos y la experiencia del usuario para atraer a suficientes usuarios.
Al mismo tiempo, estas plataformas también necesitan prestar atención a cómo gestionar la mano de obra, garantizar la calidad de los datos y evitar el fenómeno de la "expulsión de la buena moneda por la mala" causado por los "rascadores de dinero". Algunos proyectos como Sahara y Sapien ya han comenzado a enfatizar la calidad de los datos y esforzarse por establecer relaciones de cooperación a largo plazo y saludables con los usuarios de la plataforma.
Además, aumentar la transparencia es también un desafío que enfrentan los proyectos en la cadena actualmente. Muchos proyectos aún necesitan acelerar el ritmo de apertura y transparencia para promover el desarrollo saludable a largo plazo de Web3 DataFi.
La adopción masiva de DataFi necesita avanzar desde dos frentes: primero, atraer a un número suficiente de usuarios individuales para participar en la recopilación/generación de datos, formando así un grupo de consumidores de la economía de IA; segundo, obtener el reconocimiento de empresas convencionales, ya que a corto plazo son la principal fuente de grandes volúmenes de datos.
Conclusión
Desde cierto punto de vista, DataFi es el cultivo a largo plazo de la inteligencia de las máquinas mediante la inteligencia humana, al mismo tiempo que se garantiza el rendimiento del trabajo humano a través de contratos inteligentes, disfrutando finalmente de los beneficios de la inteligencia de las máquinas.
Para aquellos que sienten incertidumbre en la era de la IA, o que aún tienen ideales en el campo de la blockchain, seguir los pasos de los magnates del capital y sumergirse en DataFi es una opción que se adapta a la tendencia.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
16 me gusta
Recompensa
16
4
Compartir
Comentar
0/400
SneakyFlashloan
· hace18h
Madre mía, 290 mil millones a los 28 años. Debo esforzarme más.
Ver originalesResponder0
MetaMuskRat
· hace19h
Otra vez Zack está causando problemas, me muero de risa.
Ver originalesResponder0
NftDataDetective
· hace19h
parece que finalmente zuck lo está entendiendo... los datos son el nuevo petróleo fr fr
Ver originalesResponder0
AirdropChaser
· hace19h
Mira, realmente es un proyecto con dinero, es hora de posicionarse.
DataFi: Web3 impulsa una nueva tendencia en la capitalización de activos de datos de IA
Los datos son activos: DataFi abre un nuevo océano azul
El mundo está en una carrera por construir el mejor modelo base. Aunque la capacidad de computación y la arquitectura del modelo son importantes, la verdadera ventaja competitiva radica en los datos de entrenamiento. La noticia más destacada en el ámbito de la IA este mes es que Meta ha demostrado su poder, Zuckerberg ha reclutado talento y ha formado un lujoso equipo de IA compuesto principalmente por investigadores de origen chino. El líder es Alexander Wang, de 28 años, cuyo Scale AI tiene actualmente una valoración de 29 mil millones de dólares y proporciona servicios de datos a varios gigantes de la IA competidores, incluidos el ejército de EE. UU., OpenAI, Anthropic y Meta. El negocio principal de Scale AI es ofrecer una gran cantidad de datos etiquetados precisos.
El camino al éxito de Scale AI
La razón por la que Scale AI ha logrado destacar entre muchos unicornios es porque descubrió temprano la importancia de los datos en la industria de la IA.
La potencia de cálculo, el modelo y los datos son los tres pilares de un modelo de IA. Si comparamos un gran modelo con una persona, entonces el modelo es el cuerpo, la potencia de cálculo es la comida y los datos son el conocimiento/la información.
Durante el rápido desarrollo de los LLM, el enfoque de la industria ha cambiado de los modelos a la potencia de cálculo. Actualmente, la mayoría de los modelos han establecido el transformer como marco, con innovaciones ocasionales como MoE o MoRe; los principales actores han construido sus propios clústeres de supercomputación o han firmado acuerdos a largo plazo con proveedores de servicios en la nube para resolver los problemas de potencia de cálculo. Después de haber atendido las necesidades básicas de potencia de cálculo, la importancia de los datos ha ido cobrando cada vez más relevancia.
Scale AI se dedica a construir una base de datos sólida para modelos de IA, su negocio no solo incluye la minería de datos existentes, sino que también se enfoca en la generación de datos a largo plazo. La empresa forma equipos de entrenamiento de IA compuestos por expertos humanos de diferentes campos, para proporcionar datos de mayor calidad para el entrenamiento de modelos de IA.
Dos fases del entrenamiento del modelo
El entrenamiento del modelo se divide en dos partes: preentrenamiento y ajuste fino.
El preentrenamiento es un proceso similar al aprendizaje del habla de los bebés humanos, que requiere introducir en el modelo de IA una gran cantidad de información recopilada de textos, códigos y otros datos de Internet, permitiendo que el modelo aprenda de forma autónoma a dominar las habilidades básicas de comunicación.
El ajuste fino es similar a ir a la escuela, donde generalmente hay respuestas y direcciones claras sobre lo que está bien o mal. Diferentes "escuelas" pueden cultivar "talentos" con características distintas. A través de conjuntos de datos cuidadosamente preparados y específicos, dotamos al modelo de las capacidades que deseamos.
Por lo tanto, necesitamos dos tipos de datos:
Datos masivos que no requieren demasiada manipulación, provenientes principalmente de datos de arañas de grandes plataformas UGC, bases de datos de literatura pública, bases de datos privadas de empresas, etc.
Conjuntos de datos profesionales cuidadosamente diseñados y seleccionados, que requieren limpieza de datos, filtrado, etiquetado, retroalimentación manual y otros trabajos.
Estos dos tipos de conjuntos de datos constituyen el núcleo de la pista de AI Data. Actualmente, se considera generalmente que, a medida que la ventaja de la potencia de cálculo desaparece gradualmente, los datos se convertirán en la clave para que los fabricantes de grandes modelos mantengan su competitividad.
Con la mejora continua de las capacidades del modelo, diversos conjuntos de datos de entrenamiento más finos y especializados se convertirán en factores clave para determinar la capacidad del modelo. Si comparamos el entrenamiento del modelo con la formación de un experto en artes marciales, entonces un conjunto de datos de alta calidad es como el mejor manual de habilidades marciales.
A largo plazo, AI Data es una pista a largo plazo con un efecto bola de nieve. A medida que se acumulan los trabajos iniciales, los activos de datos tendrán la capacidad de interés compuesto, y su valor crecerá con el tiempo.
Web3 DataFi: El terreno ideal para los datos de IA
En comparación con las empresas de datos tradicionales, Web3 tiene ventajas naturales en el campo de los datos de IA, lo que ha dado lugar al concepto de DataFi.
En un escenario ideal, las ventajas de Web3 DataFi incluyen:
Para los usuarios comunes, DataFi es el proyecto de IA descentralizada más fácil de participar. Los usuarios solo necesitan iniciar sesión en su billetera y pueden participar completando diversas tareas, como proporcionar datos, evaluar modelos, utilizar herramientas de IA para creaciones simples, participar en transacciones de datos, etc.
Proyectos potenciales de Web3 DataFi
Actualmente, varios proyectos de DataFi han recibido grandes financiamientos, a continuación se presentan algunos proyectos representativos:
Estos proyectos actualmente tienen barreras generalmente bajas, pero a medida que se acumule la lealtad de los usuarios y del ecosistema, la ventaja de la plataforma se formará rápidamente. Los proyectos iniciales deben centrarse en los incentivos y la experiencia del usuario para atraer a suficientes usuarios.
Al mismo tiempo, estas plataformas también necesitan prestar atención a cómo gestionar la mano de obra, garantizar la calidad de los datos y evitar el fenómeno de la "expulsión de la buena moneda por la mala" causado por los "rascadores de dinero". Algunos proyectos como Sahara y Sapien ya han comenzado a enfatizar la calidad de los datos y esforzarse por establecer relaciones de cooperación a largo plazo y saludables con los usuarios de la plataforma.
Además, aumentar la transparencia es también un desafío que enfrentan los proyectos en la cadena actualmente. Muchos proyectos aún necesitan acelerar el ritmo de apertura y transparencia para promover el desarrollo saludable a largo plazo de Web3 DataFi.
La adopción masiva de DataFi necesita avanzar desde dos frentes: primero, atraer a un número suficiente de usuarios individuales para participar en la recopilación/generación de datos, formando así un grupo de consumidores de la economía de IA; segundo, obtener el reconocimiento de empresas convencionales, ya que a corto plazo son la principal fuente de grandes volúmenes de datos.
Conclusión
Desde cierto punto de vista, DataFi es el cultivo a largo plazo de la inteligencia de las máquinas mediante la inteligencia humana, al mismo tiempo que se garantiza el rendimiento del trabajo humano a través de contratos inteligentes, disfrutando finalmente de los beneficios de la inteligencia de las máquinas.
Para aquellos que sienten incertidumbre en la era de la IA, o que aún tienen ideales en el campo de la blockchain, seguir los pasos de los magnates del capital y sumergirse en DataFi es una opción que se adapta a la tendencia.