Obtenha a linhagem de dados de instruções SQL complexas em um minuto
Linhagem de dados é um elo muito importante na governança de dados empresariais. Para o papel importante da linhagem de dados na governança de dados empresariais, você pode consultar O que é linhagem de dados e por que ela é tão importante?. A linguagem SQL é amplamente usada no processamento de dados, e as instruções SQL contêm uma rica linhagem de dados. Para saber o que é linhagem de dados em SQL e como descobrir essas linhagens de dados ocultas em instruções SQL, consulte Como descobrir a linhagem de dados na linguagem SQL em 5 minutos?.

Como obter a linhagem de dados de instruções SQL complexas em um minuto?
Este artigo apresenta principalmente como usar a IU, a API Rest e a biblioteca Java fornecida pelo Gudu SQLFlow ferramenta de análise de linhagem de dados para obter rapidamente a linhagem de dados em instruções SQL complexas e integrá-las à sua própria plataforma de governança de dados, conforme necessário.
Uma instrução SQL ligeiramente complexa
Agora usamos a seguinte declaração SQL um pouco complicada para demonstrar como usar o Gudu SQLFlow para obter rapidamente várias linhagens de dados. Se você tem declarações SQL mais complexas ou procedimentos armazenados para processar, então uma ferramenta de análise de linhagem de dados como o Gudu SQLFlow é ainda mais urgente.
Nosso objetivo é saber quais colunas estão incluídas na lista de seleção de nível superior e de quais outras tabelas e colunas os dados de origem dessas colunas vêm. Um resultado ideal deve ser parecido com este:

Linhagem de dados para lista de seleção de nível superior
Para obter o resultado acima, precisamos fazer o seguinte:
- Expanda automaticamente o * (asterisco) em data.* para encontrar a coluna correspondente.
- Execute o rastreamento de fonte de dados para cada coluna na lista de seleção para encontrar a tabela e a coluna originais. Esse processo pode exigir vários níveis de rastreamento de fonte até que a fonte de dados final seja encontrada.
Sobre a expansão automática do *
* (asterisco) na Lista de Seleção representa todas as colunas na relação, que precisam ser expandidas para nomes de colunas específicos. Nesse caso, o Gudu SQLFlow pode expandir automaticamente com base nas informações contextuais fornecidas no SQL. Mas às vezes, a própria instrução SQL não fornece informações suficientes para determinar quais colunas * contém. Neste momento, você precisa fornecer informações de metadados para Gudu SQLFlow para expandir corretamente os asteriscos.
Gudu SQLFlow fornece três maneiras de ajudá-lo a obter rapidamente o linhagem de dados de instruções SQL complexas, que é conveniente para você usar em diferentes ocasiões.
1. Interface de usuário Gudu SQLFlow
Você pode acessar diretamente o Nuvem SQLFlow Gudu versão sem instalar nenhum software para usá-lo. É muito simples de usar. Você pode colar diretamente a instrução SQL a ser processada na área de entrada e, em seguida, clicar em Visualizar.

Linhagem de dados Gudu SQLFlow
Podemos ignorar as etapas intermediárias de processamento e informações detalhadas da linhagem de dados, e exibir diretamente os dados de origem e os dados de destino. Para obter os resultados concisos, conforme mostrado na figura acima, as configurações usadas são as seguintes:

Configuração do Gudu SQLFlow
Você pode baixar o Resultado JSON contendo a linhagem de dados para processamento posterior. (O caminho de armazenamento da linhagem de dados: dados -> sqlflow -> relacionamentos)

Linhagem de dados Gudu SQLFlow em JSON
2. API de descanso do Gudu SQLFlow
Você pode chamar a API Gudu SQLFlow Rest no seu código para enviar automaticamente as instruções SQL que precisam ser processadas, obter os resultados do processamento em tempo real e, então, processar a linhagem de dados retornada no seu código de acordo com os requisitos comerciais.
Para usar a API Gudu SQLFlow Rest, você precisa de um Conta Gudu SQLFlow Cloud Premium. Aqui está o tutorial detalhado. Ou você pode instalar Versão local do Gudu SQLFlow dentro da sua empresa para usar a API Rest.
- Código Python conecta-se ao servidor Gudu SQLFlow ( Gudu SQLFlow no local servidor) implantado na empresa para obter resultados de linhagem de dados.
- Código Python conecta-se ao Nuvem SQLFlow servidor para obter resultados de linhagem de dados.
Clique aqui para visualizar os resultados da linhagem de dados gerados pela análise de código Python acima.
3. Biblioteca Gudu SQLFlow Java
Você também pode usar o Biblioteca de classes Java Gudu SQLFlow para analisar a linhagem de dados de instruções SQL. A vantagem de usar a biblioteca de classes Java Gudu SQLFlow é que você não precisa instalar o software do servidor Gudu SQLFlow, e ele pode ser executado de forma independente sem depender de nenhuma biblioteca de classes Java de terceiros, o que é fácil de integrar em seus próprios projetos.
Nós criamos um Programa de demonstração Java para você, para que você possa usá-lo para compilar e executar diretamente. Para obter todas as colunas e suas fontes de dados retornadas pela lista de seleção de nível superior da instrução SQL neste artigo, podemos executar a demonstração Java com os seguintes parâmetros:
A linhagem de dados gerada é armazenada em formato XML e você pode clicar aqui para abrir este arquivo XML.
Conclusão
Obrigado por ler nosso artigo e esperamos que ele possa ajudá-lo a ter uma melhor compreensão de como fazer obter a linhagem de dados de instruções SQL complexas em um minuto. Se você quiser saber mais sobre a linhagem de dados, gostaríamos de aconselhá-lo a visitar Gudu SQLFlow site oficial para mais informações.
Como uma das melhores ferramentas de análise de linhagem de dados do mercado hoje, Gudu SQLFlow não só pode analisar arquivos de script SQL, obter linhagem de dados e executar exibição visual, mas também permitir que os usuários forneçam linhagem de dados em formato CSV e executem exibição visual. (Publicado por Ryan em 22 de maio de 2022)
Se você gosta de ler isso, explore nossos outros artigos abaixo: