Reddit ha sido durante mucho tiempo un punto de acceso para las conversaciones en Internet. Alrededor de 57 millones de personas visitan el sitio diariamente para conversar sobre temas tan diversos como maquillaje, videojuegos e indicadores de carril de lavado a presión.
En los últimos años, el grupo de chat de Reddit también ha sido una ayuda de aprendizaje gratuita para empresas como Google, OpenAI y Microsoft. Estas empresas están utilizando los chats de Reddit para desarrollar sistemas de IA gigantes que muchos en Silicon Valley creen que están en camino de convertirse en la próxima gran novedad en la industria tecnológica.
Ahora Reddit quiere que le paguen. La compañía dijo el martes que planea comenzar a cobrar a las empresas por el acceso a su interfaz de programación de aplicaciones, o API, que es la forma en que las entidades externas pueden descargar y procesar una amplia gama de conversaciones personales en la red social.
“El conjunto de datos de Reddit es realmente valioso”, dijo el fundador y director ejecutivo de Reddit, Steve Hoffman, en una entrevista. “Pero no necesitamos dar todo ese valor a algunas de las empresas más grandes del mundo de forma gratuita”.
La medida representa uno de los primeros ejemplos significativos de redes sociales que cobran por el acceso a las conversaciones que alojan con el fin de desarrollar sistemas de inteligencia artificial como ChatGPT, el popular software OpenAI. Estos nuevos sistemas de IA pueden conducir algún día a grandes empresas, pero no es probable que ayuden mucho a empresas como Reddit. De hecho, se pueden usar para crear competidores: duplicados automáticos de sus conversaciones de Reddit.
El movimiento de Reddit también se produce mientras se prepara para una posible oferta pública inicial en Wall Street a finales de este año. La empresa, fundada en 2005, obtiene la mayor parte de su dinero a través de la publicidad y las transacciones de comercio electrónico en su plataforma. Reddit dijo que todavía está trabajando en los detalles de las tarifas que cobrará por el acceso a la API y anunciará los precios en las próximas semanas.
Las conversaciones de Reddit, o subreddits, como las llama la compañía, se han convertido en productos valiosos a medida que los grandes modelos de lenguaje, o LLM, se han convertido en una parte esencial de la creación de nueva tecnología de IA.
Una nueva generación de chatbots
Nuevo mundo valiente. Un nuevo lote de chatbots impulsados por IA ha iniciado una lucha para determinar si la tecnología puede cambiar la economía de Internet, convertir la fuerza laboral actual en paquetes y crear los próximos gigantes de la industria. Aquí están los bots para saber:
Los LLM son principalmente algoritmos complejos desarrollados por empresas como Google y OpenAI, un socio cercano de Microsoft. Para los algoritmos, las conversaciones de Reddit son datos, y se encuentran entre la gran cantidad de material que se alimenta a los LLM para su desarrollo.
El algoritmo central que ayudó a construir Bard, el servicio de inteligencia artificial conversacional de Google, se entrenó en parte con datos de Reddit. El chat GPT de OpenAI cita los datos de Reddit como una de las fuentes de información en las que entrenó.
Otras empresas también están empezando a notar el valor de las conversaciones y las fotos que alojan. Shutterstock, un servicio de alojamiento de imágenes, también vendió datos de imágenes a OpenAI para ayudar a crear DALL-E, un programa generativo de inteligencia artificial que crea imágenes gráficas frescas y vibrantes con solo un mensaje de texto requerido.
El mes pasado, Elon Musk, propietario de Twitter, dijo que estaba tomando medidas enérgicas contra el uso de la API de Twitter, que utilizan miles de empresas externas y desarrolladores independientes para rastrear los millones de conversaciones que ocurren en la red. Aunque no citó los LLM como una razón para hacer el cambio, las nuevas tarifas pueden ascender a decenas o incluso cientos de miles de dólares.
Para continuar mejorando sus modelos, los fabricantes de IA necesitan dos cosas importantes: una gran cantidad de poder de cómputo y una gran cantidad de datos. Algunos de los mayores desarrolladores de IA tienen mucho poder de cómputo, pero aún buscan fuera de sus propias redes los datos necesarios para mejorar sus algoritmos. Esto ha incluido fuentes como Wikipedia, millones de libros digitales, artículos académicos y Reddit.
Los representantes de Google, Open AI y Microsoft no respondieron de inmediato a una solicitud de comentarios.
Reddit ha tenido durante mucho tiempo una relación simbiótica con los motores de búsqueda de empresas como Google y Microsoft. Los motores de búsqueda “rastrean” las páginas web de Reddit para indexar la información y ponerla a disposición de los resultados de búsqueda. Este rastreo, o “raspado”, no siempre es bien recibido por todos los sitios web en Internet. Pero Reddit se ha beneficiado de aparecer más alto en los resultados de búsqueda.
La dinámica es diferente con los LLM: engullen la mayor cantidad de datos posible para crear nuevos sistemas de IA como chatbots.
Reddit cree que sus datos son especialmente valiosos porque se actualizan constantemente. Hoffman dijo que esta novedad y relevancia es lo que necesitan los grandes algoritmos de modelado de lenguaje para lograr los mejores resultados.
“Más que cualquier otro lugar en Internet, Reddit es el hogar de una conversación auténtica”, dijo Hoffman. “Hay muchas cosas en el sitio que solo dices en terapia, o AA, o no dices en absoluto”.
El Sr. Hoffman dijo que la API de Reddit seguirá siendo gratuita para los desarrolladores que quieran crear aplicaciones que ayuden a las personas a usar Reddit. Pueden usar las herramientas para construir un bot que rastree automáticamente si los comentarios de los usuarios se adhieren a las reglas de un subreddit, por ejemplo. Los investigadores que quieran estudiar los datos de Reddit con fines académicos o no comerciales seguirán teniendo acceso gratuito a ellos.
Reddit también espera incorporar más de lo que se llama aprendizaje automático en el funcionamiento del sitio. Podría usarse, por ejemplo, para limitar el uso de texto generado por IA en Reddit y agregar una etiqueta que notifique a los usuarios que un comentario proviene de un bot.
La compañía también prometió mejorar las herramientas de software que pueden usar los moderadores: usuarios que ofrecen su tiempo voluntariamente para mantener los foros del sitio funcionando sin problemas y mejorar las conversaciones entre los usuarios. Los bots de terceros que ayudan a los moderadores a monitorear los foros seguirán siendo compatibles.
Pero para los fabricantes de IA, es hora de empujar.
“Rastrear Reddit, generar valor y no devolver nada de ese valor a nuestros usuarios es algo con lo que tenemos un problema”, dijo Hoffman. “Es un buen momento para endurecer las cosas”.
“Creemos que eso es justo”, agregó.