29 de November de 2023

Uma frase gera automaticamente a sintaxe SQL, e a Numbers Station, que visa o processamento de dados, arrecadou quase 400 milhões de yuans

De acordo com uma pesquisa da CrowdFlower, uma plataforma de limpeza de dados terceirizada, os cientistas de dados gastam 60% de seu tempo “limpando dados” em vez de análises de dados reais. Mesmo que todas as empresas entendam a importância do “Data-Driven”, o processamento de dados ainda é um trabalho árduo inevitável.

Continua após a publicidade

O recém-criado Numbers Station aplica a recentemente popular “IA generativa” ao processamento de dados: os usuários só precisam inserir uma frase e a sintaxe SQL pode ser gerada automaticamente para recuperar dados de um enorme banco de dados. Por exemplo, o volume mensal de vendas de um determinado produto e os três principais produtos de faturamento deste trimestre também podem construir diretamente modelos de IA, que podem ser usados ​​até mesmo por trabalhadores que não entendem linguagens de programação. Acaba de receber US$ 12,5 milhões na Série A financiamento em março.

A Numbers Station quer permitir que os cientistas de dados se concentrem “no que mais importa”

A Numbers Station é co-fundada pelo Ph.D. Chris Aberger, Ines Chami, Sen Wu e pelo professor associado Chris Ré da Universidade de Stanford.

“Vemos que a maioria dos talentos de IA se concentra em funções de marketing e geração de imagens, e poucos se concentram no processamento de formatos de dados complexos e limpeza pré-dados, mas isso ainda é um grande problema e demanda empresarial.” Chris Aberger, CEO da Numbers Station, disse.

Antes da análise de dados, se não houver dados limpos, será difícil produzir insights com insights corretos, que é o comum “lixo entra, lixo sai” (Garbage in, trash out). Se a maioria dos dados originais (Raw Data ) está errado, Duplicação ou exclusão, construir um modelo AI antes da limpeza reduzirá a precisão do modelo AI. No entanto, devido à enorme quantidade de dados e várias fontes, a limpeza de dados sempre foi bastante difícil.

Leia Mais:  Como a Apple pega o insider? A posição da vírgula também pode ser

Chris Aberger apontou que os recursos de análise e limpeza de dados exigem um certo nível de limite; portanto, os dados geralmente são controlados apenas por algumas pessoas e, independentemente do acesso inicial aos dados ou do modelo de IA, isso depende dessas poucas pessoas. “Queremos que os cientistas de dados gastem mais tempo fornecendo insights e menos tempo fazendo a limpeza mundana de dados.”

A Numbers Station permite que todos escrevam SQL e construam modelos de IA

A Numbers Station foi criada em 2021 para fornecer serviços de IA generativa, salvando os cientistas de dados de limpeza de dados repetitiva e demorada, desduplicação, normalização etc., mas atualmente disponível apenas na linguagem SQL.

O objetivo do Numbers Station é simplesmente tornar a limpeza de dados não mais difícil e não mais limitada a pessoas com conhecimento profissional. Está dividido em três partes: a primeira é melhorar a eficiência, permitindo que os cientistas de dados se concentrem em tarefas mais importantes, como interpretar dados e tomar decisões; a segunda é melhorar a qualidade dos dados e corrigir e identificar problemas automaticamente por meio da IA; Todos pode recuperar dados e construir modelos de IA.

Para atingir os objetivos acima, os produtos Numbers Station fornecem três serviços principais para acelerar a limpeza, acesso e uso de dados:

Gerar linguagem SQL automaticamente

A linguagem SQL é usada principalmente para consulta de banco de dados, como pedidos de clientes, tendências de vendas etc. Uma tabela de dados”, e pronto. Obtenha uma sequência de fórmulas SQL e recupere diretamente os dados necessários.

Crie automaticamente modelos de IA

O Numbers Station também pode criar automaticamente modelos de IA. Tomando as avaliações dos clientes como exemplo, os usuários só precisam inserir uma frase, como “Qual parte deste produto esses clientes mais gostam? Use um resumo de uma palavra, como preço, ajuste de tamanho, estilo, etc.”, o Numbers Station rotulará automaticamente o conjunto de dados e só precisará verificar se o rótulo está correto, dar feedback e corrigi-lo, e o modelo AI pode ser estabelecido.

▲ O Numbers Station permite que os programadores criem diretamente modelos de IA. 

Leia Mais:  O que acontecerá quando o cão robô de Boston for combinado com o ChatGPT?

Consolidar bancos de dados automaticamente

Como os múltiplos bancos de dados da empresa podem ser distribuídos em diferentes plataformas, o Numbers Station pode mesclar dados diretamente do SAP, Salesforce, Snowflake, etc.

▲ O Numbers Station integra automaticamente os conjuntos de dados.

Por exemplo, um cliente corporativo da Numbers Station tem dois sistemas de gerenciamento de relacionamento com o cliente (CRM), cada um dos quais gerencia clientes de lojas físicas e on-line, e os dados de ambos os lados são independentes. Para conhecer a situação de consumo online e físico dos clientes, as empresas esperam integrar os dados de ambos os lados, para que as equipes de marketing e negócios possam acompanhar o processo geral de compra dos consumidores.

Mas a dificuldade é que os dados de diferentes lojas físicas são confusos e há muitos valores ausentes e erros de formato, o que leva a muita energia para integração de dados. Finalmente, depois de usar o Numbers Station, a taxa de correspondência de dados de ambos lados é de 98% e a velocidade de trabalho é aumentada em 10 vezes. A equipe economiza muito tempo e custo.

Para lutar contra o boom da IA ​​generativa, “juntar-se à sua própria profissão” é a chave do sucesso

Em março, a Numbers Station acaba de receber US$ 12,5 milhões em financiamento da Série A, liderado por Madrona, incluindo Norwest Venture Partners, Factory e outros investidores.

Os investidores da Madrona, Tim Porter e Jon Turow, disseram que o motivo para investir na Numbers Station é que os membros da equipe têm uma sólida formação técnica, o que pode introduzir a IA em mais empresas e diminuir o limite para o uso da tecnologia. Chris Aberger costumava trabalhar na SambaNova, um unicórnio americano de software e hardware de inteligência artificial. Systems lidera a equipe de aprendizado de máquina.

Leia Mais:  Redefinindo dados por meio da essência da informação

Mark Nelson, ex-CEO da Tableau, uma empresa de visualização de dados, também expressou sua opinião: “A Numbers Station está resolvendo décadas de desafios na indústria de dados. Sua plataforma e tecnologia de IA subjacente trouxeram mudanças fundamentais para o trabalho de dados moderno”.

Muitas empresas atualmente usam o modelo OpenAI original do ChatGPT para criar produtos, e Chris Aberger também apresentou as visualizações correspondentes. Em sua opinião, como o ChatGPT só capta informações da Internet, não consegue abranger todos os conhecimentos e disciplinas, podendo atingir apenas um nível de passagem, por isso é necessário um ajuste fino para atingir uma pontuação quase total e diferenciar o produto. “O que realmente importa é onde esses modelos aplicam o conhecimento de IA que os faz ter um bom desempenho em tarefas organizacionais específicas”.