13.7 C
Brasília
sábado, junho 21, 2025

Startup Contextual AI eleva geração de recuperação aumentada para empresas



Startup Contextual AI eleva geração de recuperação aumentada para empresas

Bem antes de o OpenAI revolucionar o setor de tecnologia com o lançamento do ChatGPT no outono de 2022, Douwe Kiela já entendia por que grandes modelos de linguagem, por si só, só podiam oferecer soluções parciais para casos de uso corporativo importantes.

O jovem CEO holandês da IA contextual foi profundamente influenciado por dois artigos seminais de Google e IA abertaque juntos delinearam a receita para criar modelos de IA generativos baseados em transformadores e LLMs rápidos e eficientes.

Emblem após a publicação desses artigos em 2017 e 2018, Kiela e sua equipe de pesquisadores de IA no Fb, onde ele trabalhava na época, perceberam que os LLMs enfrentariam profundos problemas de atualização de dados.

Eles sabiam que quando modelos de base como LLMs eram treinados em conjuntos de dados massivos, o treinamento não apenas imbuía o modelo com um “cérebro” metafórico para “raciocínio” entre dados. Os dados de treinamento também representavam a totalidade do conhecimento de um modelo que ele poderia utilizar para gerar respostas às perguntas dos usuários.

A equipe de Kiela percebeu que, a menos que um LLM pudesse acessar dados relevantes em tempo actual de forma eficiente e econômica, mesmo o LLM mais inteligente não seria muito útil para as necessidades de muitas empresas.

Então, na primavera de 2020, Kiela e sua equipe publicaram um artigo seminal dos seus próprios, que apresentaram ao mundo geração aumentada de recuperação. RAG, como é comumente chamado, é um método para atualizar continuamente e de forma econômica modelos de fundação com informações novas e relevantes, incluindo dos próprios arquivos do usuário e da web. Com RAG, o conhecimento de um LLM não está mais confinado aos seus dados de treinamento, o que torna os modelos muito mais precisos, impactantes e relevantes para usuários corporativos.

Hoje, Kiela e Amanpreet Singh, um ex-colega do Fb, são CEO e CTO da Contextual AI, uma startup sediada no Vale do Silício, que recentemente fechou uma rodada Série A de US$ 80 milhões, que incluiu o braço de investimento da NVIDIA, NVentures. A Contextual AI também é membro da NVIDIA Inceptionum programa criado para nutrir startups. Com cerca de 50 funcionários, a empresa diz que planeja dobrar de tamanho até o fim do ano.

A plataforma que a Contextual AI oferece é chamada RAG 2.0. De muitas maneiras, é uma versão avançada e produtizada da arquitetura RAG que Kiela e Singh descreveram pela primeira vez em seu artigo de 2020.

O RAG 2.0 pode atingir precisão de parâmetros e desempenho cerca de 10 vezes melhores do que os concorrentes, diz Kiela.

Isso significa, por exemplo, que um modelo de 70 bilhões de parâmetros que normalmente exigiria recursos de computação significativos poderia, em vez disso, ser executado em uma infraestrutura muito menor, construída para lidar com apenas 7 bilhões de parâmetros sem sacrificar a precisão. Esse tipo de otimização abre casos de uso de ponta com computadores menores que podem ter desempenho significativamente maior do que o esperado.

“Quando o ChatGPT aconteceu, vimos essa enorme frustração em que todos reconheceram o potencial dos LLMs, mas também perceberam que a tecnologia ainda não estava lá”, explicou Kiela. “Sabíamos que o RAG period a solução para muitos dos problemas. E também sabíamos que poderíamos fazer muito melhor do que o que descrevemos no artigo unique do RAG em 2020.”

Recuperadores integrados e modelos de linguagem oferecem grandes ganhos de desempenho

A chave para as soluções da Contextual AI é sua integração próxima de sua arquitetura de recuperador, o “R” em RAG, com a arquitetura de um LLM, que é o gerador, ou “G”, no termo. A maneira como o RAG funciona é que um recuperador interpreta a consulta de um usuário, verifica várias fontes para identificar documentos ou dados relevantes e, em seguida, traz essas informações de volta para um LLM, que raciocina sobre essas novas informações para gerar uma resposta.

Desde cerca de 2020, o RAG se tornou a abordagem dominante para empresas que implantam chatbots com tecnologia LLM. Como resultado, um ecossistema vibrante de startups focadas em RAG foi formado.

Uma das maneiras pelas quais a IA Contextual se diferencia dos concorrentes é pela forma como ela refina e aprimora seus recuperadores por meio da retropropagação, um processo de ajuste de algoritmos — os pesos e vieses — subjacentes à sua arquitetura de rede neural.

E, em vez de treinar e ajustar duas redes neurais distintas, ou seja, o retriever e o LLM, a IA Contextual oferece uma abordagem unificada plataforma de última geraçãoque alinha o recuperador e o modelo de linguagem e, em seguida, ajusta ambos por meio de retropropagação.

Sincronizar e ajustar pesos e vieses em redes neurais distintas é difícil, mas o resultado, diz Kiela, leva a ganhos tremendos em precisão, qualidade de resposta e otimização. E como o recuperador e o gerador estão tão alinhados, as respostas que eles criam são baseadas em dados comuns, o que significa que suas respostas são muito menos propensas do que outras arquiteturas RAG a incluir dados inventados ou “alucinados”, que um modelo pode oferecer quando não “sabe” uma resposta.

“Nossa abordagem é tecnicamente muito desafiadora, mas leva a um acoplamento muito mais forte entre o recuperador e o gerador, o que torna nosso sistema muito mais preciso e muito mais eficiente”, disse Kiela.

Lidando com casos de uso difíceis com inovações de última geração

O RAG 2.0 é essencialmente agnóstico em LLM, o que significa que ele funciona em diferentes modelos de linguagem de código aberto, como Mistral ou Llama, e pode acomodar as preferências de modelo dos clientes. Os recuperadores da startup foram desenvolvidos usando Megatron LM da NVIDIA em uma mistura de NVIDIA H100 e GPUs A100 Tensor Core hospedado no Google Cloud.

Um dos desafios significativos que toda solução RAG enfrenta é como identificar as informações mais relevantes para responder à consulta de um usuário quando essas informações podem ser armazenadas em vários formatos, como texto, vídeo ou PDF.

A IA contextual supera esse desafio por meio de uma abordagem de “mistura de recuperadores”, que alinha as subespecialidades de diferentes recuperadores com os diferentes formatos em que os dados são armazenados.

A IA contextual implementa uma combinação de tipos de RAG, além de um algoritmo de reclassificação neural, para identificar informações armazenadas em diferentes formatos que, juntos, respondem de forma supreme à consulta do usuário.

Por exemplo, se alguma informação relevante para uma consulta for armazenada em um formato de arquivo de vídeo, então um dos RAGs implantados para identificar dados relevantes provavelmente seria um Graph RAG, que é muito bom para entender relacionamentos temporais em dados não estruturados como vídeo. Se outros dados fossem armazenados em um formato de texto ou PDF, então um RAG baseado em vetor seria implantado simultaneamente.

O reranker neural ajudaria a organizar os dados recuperados e as informações priorizadas seriam então enviadas ao LLM para gerar uma resposta à consulta inicial.

“Para maximizar o desempenho, quase nunca usamos uma única abordagem de recuperação — geralmente é um híbrido porque eles têm pontos fortes diferentes e complementares”, disse Kiela. “A mistura exata depende do caso de uso, dos dados subjacentes e da consulta do usuário.”

Ao essencialmente fundir as arquiteturas RAG e LLM, e oferecer muitas rotas para encontrar informações relevantes, a Contextual AI oferece aos clientes um desempenho significativamente melhorado. Além de maior precisão, sua oferta reduz a latência graças a menos chamadas de API entre as redes neurais do RAG e do LLM.

Por causa de sua arquitetura altamente otimizada e menores demandas de computação, o RAG 2.0 pode ser executado na nuvem, no native ou totalmente desconectado. E isso o torna relevante para uma ampla gama de indústrias, de fintech e manufatura a dispositivos médicos e robótica.

“Os casos de uso em que estamos focando são os realmente difíceis”, disse Kiela. “Além de ler uma transcrição, responder perguntas básicas ou resumos, estamos focados em funções de alto valor e conhecimento intensivo que economizarão muito dinheiro para as empresas ou as tornarão muito mais produtivas.”

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Stay Connected

0FansLike
0FollowersFollow
0SubscribersSubscribe
- Advertisement -spot_img

Latest Articles