Os grandes modelos estão a lançar uma competição de capacidade de texto longo, com o aumento do comprimento do contexto em 100 vezes, provocando uma transformação na indústria.
Os grandes modelos estão a evoluir na direção de "mais longos".
O comprimento do contexto dos grandes modelos está a crescer rapidamente, passando de 4000 tokens para 400000 tokens. A capacidade de lidar com textos longos parece estar a tornar-se um novo padrão para as empresas de grandes modelos.
No exterior, a OpenAI aumentou o comprimento do contexto do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respetivamente, através de várias atualizações. A Anthropic, por sua vez, expandiu o comprimento do contexto para 100.000 tokens de uma só vez. O LongLLaMA ampliou ainda mais o comprimento do contexto para 256.000 tokens ou mais.
No que diz respeito ao país, soube-se que uma startup lançou um produto de assistente inteligente que suporta a entrada de 200.000 caracteres chineses, aproximadamente 400.000 tokens. Além disso, uma equipe de pesquisa desenvolveu uma nova tecnologia que pode expandir o comprimento do texto do modelo 7B para 100.000 tokens.
Atualmente, muitas empresas de modelos de ponta e instituições de pesquisa, tanto nacionais quanto internacionais, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. A maioria dessas empresas tem sido muito valorizada no mercado de capitais, com avaliações e tamanhos de financiamento em níveis elevados.
O que significa o aumento da capacidade de contexto em 100 vezes para empresas de grandes modelos concentradas em superar a tecnologia de texto longo?
À primeira vista, isso permite que o texto que o modelo pode processar seja mais longo e que a sua capacidade de leitura seja maior. Passou de conseguir ler apenas um texto curto para agora poder ler um romance inteiro.
A um nível mais profundo, a tecnologia de texto longo está a impulsionar a aplicação prática de grandes modelos em áreas profissionais como finanças, justiça e investigação científica. A capacidade de resumo de documentos longos, compreensão de leitura e perguntas e respostas são fundamentais para a modernização inteligente desses campos.
No entanto, assim como o tamanho dos parâmetros, o comprimento do texto não é necessariamente melhor quanto mais longo. Pesquisas mostram que o suporte do modelo para entradas de contexto mais longas não se traduz diretamente em um aumento de desempenho. Mais importante é como o modelo utiliza eficazmente o conteúdo do contexto.
Atualmente, a exploração do comprimento do texto, tanto a nível nacional como internacional, ainda está longe de atingir o "ponto crítico". 400 mil tokens podem ser apenas o começo, e as grandes empresas continuam a fazer avanços.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Os grandes modelos estão a lançar uma competição de capacidade de texto longo, com o aumento do comprimento do contexto em 100 vezes, provocando uma transformação na indústria.
Os grandes modelos estão a evoluir na direção de "mais longos".
O comprimento do contexto dos grandes modelos está a crescer rapidamente, passando de 4000 tokens para 400000 tokens. A capacidade de lidar com textos longos parece estar a tornar-se um novo padrão para as empresas de grandes modelos.
No exterior, a OpenAI aumentou o comprimento do contexto do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respetivamente, através de várias atualizações. A Anthropic, por sua vez, expandiu o comprimento do contexto para 100.000 tokens de uma só vez. O LongLLaMA ampliou ainda mais o comprimento do contexto para 256.000 tokens ou mais.
No que diz respeito ao país, soube-se que uma startup lançou um produto de assistente inteligente que suporta a entrada de 200.000 caracteres chineses, aproximadamente 400.000 tokens. Além disso, uma equipe de pesquisa desenvolveu uma nova tecnologia que pode expandir o comprimento do texto do modelo 7B para 100.000 tokens.
Atualmente, muitas empresas de modelos de ponta e instituições de pesquisa, tanto nacionais quanto internacionais, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. A maioria dessas empresas tem sido muito valorizada no mercado de capitais, com avaliações e tamanhos de financiamento em níveis elevados.
O que significa o aumento da capacidade de contexto em 100 vezes para empresas de grandes modelos concentradas em superar a tecnologia de texto longo?
À primeira vista, isso permite que o texto que o modelo pode processar seja mais longo e que a sua capacidade de leitura seja maior. Passou de conseguir ler apenas um texto curto para agora poder ler um romance inteiro.
A um nível mais profundo, a tecnologia de texto longo está a impulsionar a aplicação prática de grandes modelos em áreas profissionais como finanças, justiça e investigação científica. A capacidade de resumo de documentos longos, compreensão de leitura e perguntas e respostas são fundamentais para a modernização inteligente desses campos.
No entanto, assim como o tamanho dos parâmetros, o comprimento do texto não é necessariamente melhor quanto mais longo. Pesquisas mostram que o suporte do modelo para entradas de contexto mais longas não se traduz diretamente em um aumento de desempenho. Mais importante é como o modelo utiliza eficazmente o conteúdo do contexto.
Atualmente, a exploração do comprimento do texto, tanto a nível nacional como internacional, ainda está longe de atingir o "ponto crítico". 400 mil tokens podem ser apenas o começo, e as grandes empresas continuam a fazer avanços.