데이터 계보 외부 테이블 생성 | Gudu SQLFlow

데이터웨어하우스에서 원본 데이터는 항상 Amazon S3, Google Cloud Storage, Microsoft Azure와 같은 대용량 저장소에서 가져오고, 이러한 데이터는 BigQuery, Snowflake, Redshift, Microsoft Azure와 같은 시스템에 로드됩니다. 이러한 데이터를 로드하거나 사용하는 데 사용되는 방법 중 하나는 create external table SQL 문을 사용하는 것입니다. 외부 파일에서 외부 테이블로의 데이터 계보는 다음을 통해 쉽게 캡처할 수 있습니다. Gudu SQLFlow create external table SQL 쿼리를 구문 분석하여. 이 데이터를 가지고, Gudu SQLFlow 데이터 분석 과정에서 오류를 근본 원인까지 추적하는 기능을 크게 간소화합니다.

데이터 계보 외부 테이블 생성

데이터 계보 외부 테이블 생성

이 글에서는 BigQuery, Snowflake, Redshift, Microsoft Azure에서 사용되는 외부 테이블 생성 SQL 문을 소개하고, 생성된 데이터 계보를 살펴보겠습니다. Gudu SQLFlow SQL 스크립트를 분석한 후.

BigQuery 외부 테이블 생성

외부 테이블을 사용하면 BigQuery가 BigQuery 저장소 외부에 저장된 데이터를 쿼리할 수 있습니다. 외부 테이블에 대한 자세한 내용은 다음을 참조하세요. 외부 데이터 소스 소개.

Gudu SQLFlow BigQuery에서 외부 테이블 생성 문을 분석하고 생성할 수 있습니다. 데이터 계보 이 SQL 문을 분석한 후.

BigQuery에서 외부 테이블을 생성하는 SQL 쿼리는 다음과 같습니다.

외부 테이블 dataset.CsvTable(x INT64, y STRING) OPTIONS(format='CSV', uris=['gs://bucket/path1.csv'], field_delimiter='|', max_bad_records=5)를 생성 또는 교체합니다.

위 SQL에서 생성된 데이터 계보는 Google Storage에 저장된 gs://bucket/path1.csv 파일이 dataset.CsvTable 외부 테이블의 소스로 처리되는 것을 볼 수 있습니다.

데이터 계보 외부 테이블 생성
에이에이 N이자형에이g이자형 기음아르 자형이자형에이이자형 이자형엑스이자형아르 자형N에이 에이이자형

눈송이 외부 테이블 생성

Snowflake는 지정된 외부 단계에서 하나 이상의 파일 집합에서 데이터를 읽고 단일 VARIANT 열에 데이터를 출력하는 외부 테이블을 생성합니다. 외부 테이블 문 생성 현재/지정된 스키마에 새 외부 테이블을 생성하거나 기존 외부 테이블을 바꿉니다.

외부 테이블을 생성하기 전에 다음이 필요합니다. 외부 무대를 만들다 데이터 파일이 저장되는 저장 위치입니다.

스테이지 s1을 생성합니다 url='s3://mybucket/files/logs/' ... ;

분할된 외부 테이블을 만듭니다.

et1(date_part date as to_date(split_part(metadata$filename, '/', 3) || '/' || split_part(metadata$filename, '/', 4) || '/' || split_part(metadata$filename, '/', 5), 'YYYY/MM/DD'), timestamp bigint as (value:timestamp::bigint), col2 varchar as (value:col2::varchar)) (date_part)로 분할 location=@s1/logs/ auto_refresh = true file_format = (type = parquet) aws_sns_topic = 'arn:aws:sns:us-west-2:001234567890:s3_mybucket'; 외부 테이블 생성

Gudu SQLFlow는 Snowflake에서 외부 테이블 쿼리 문을 생성하고 외부 스테이지의 파일과 외부 테이블 간의 데이터 계보를 다음과 같이 구축할 수 있습니다.

데이터 계보 외부 테이블 생성
에이에이 N이자형에이g이자형 기음아르 자형이자형에이이자형 이자형엑스이자형아르 자형N에이 에이이자형

Snowflake에서는 외부 파일의 데이터도 다음을 사용하여 테이블로 이동할 수 있습니다. 복사하다 SQL 문과 Gudu SQLFlow도 SQL 쿼리 문으로 복사된 데이터 계보를 감지할 수 있습니다.

SQL Server 및 Azure Synapse Analytics

외부 테이블 생성 명령은 PolyBase가 Hadoop 클러스터 또는 Azure Blob 저장소에 저장된 데이터에 액세스할 수 있는 외부 테이블을 만듭니다. Hadoop 클러스터 또는 Azure Blob 저장소에 저장된 데이터를 참조하는 PolyBase 외부 테이블입니다.

Azure Synapse Analytics에서 생성된 외부 테이블은 다음과 같습니다.

  • Transact-SQL 문을 사용하여 Hadoop 또는 Azure Blob 저장소 데이터를 쿼리합니다.
  • Hadoop 또는 Azure Blob 스토리지에서 데이터를 가져와 저장합니다.
  • Azure Data Lake Store에서 데이터를 가져오고 저장합니다.

외부 테이블을 만들려면 먼저 외부 데이터 소스를 만들어야 합니다.

(TYPE = HADOOP, LOCATION = 'abfss://data@pbasetr.azuredatalakestore.net')을 사용하여 외부 데이터 원본 AzureDataLakeStore를 만듭니다.

그런 다음 이 SQL 쿼리를 사용하여 외부 테이블을 만듭니다.

외부 테이블 [dbo].[DimProductexternal] ( [제품 키] [정수] NULL이 아님, [제품 레이블] nvarchar NULL, [제품 이름] nvarchar NULL)을 만듭니다. 위치='/DimProduct/', 데이터 소스=AzureDataLakeStore, 파일 형식=TextFileFormat, 거부 유형=VALUE, 거부 값=0)을 사용합니다.

Gudu SQLFlow에서 create external table 명령문을 구문 분석한 후 생성된 데이터 계보는 다음과 같습니다.

에스 에스이자형아르 자형다섯이자형아르 자형 기음아르 자형이자형에이이자형 이자형엑스이자형아르 자형N에이 에이이자형 에이에이 N이자형에이g이자형

AWS Redshift 외부 테이블 생성

Amazon Redshift, AWS Glue, Amazon Athena 또는 Apache Hive 메타스토어에서 외부 테이블을 만들 수 있습니다. 외부 테이블이 AWS Glue, Athena 또는 Hive 메타스토어에 정의된 경우 먼저 외부 데이터베이스를 참조하는 외부 스키마를 만듭니다. 그런 다음 Amazon Redshift에서 테이블을 만들 필요 없이 테이블 이름 앞에 스키마 이름을 접두사로 붙여 SELECT 문에서 외부 테이블을 참조할 수 있습니다. 

다음 예제에서는 Amazon Redshift 외부 스키마에 SALES라는 이름의 테이블을 생성합니다. 스펙트럼데이터는 탭으로 구분된 텍스트 파일에 있습니다.

외부 테이블 spectrum.sales( salesid 정수, listid 정수, sellerid 정수, buyerid 정수, eventid 정수, dateid smallint, qtysold smallint, pricepaid 소수점(8,2), commission 소수점(8,2), saletime 타임스탬프)를 생성합니다. 행 형식은 't'로 끝나는 구분된 필드를 포함하고 텍스트 파일로 저장됩니다. 위치 's3://awssampledbuswest2/tickit/spectrum/sales/' 테이블 속성('numRows'='172000');

위의 SQL을 구문 분석한 후 Gudu SQLFlow에서 생성된 데이터 계보는 다음과 같습니다.

아르 자형이자형에스시간에프 기음아르 자형이자형에이이자형 이자형엑스이자형아르 자형N에이 에이이자형 에이에이 N이자형에이g이자형

결론 

저희 기사를 읽어주셔서 감사합니다. 이 기사가 귀하께서 저희 기사를 더 잘 이해하는 데 도움이 된다면, 데이터 계보는 어떻게 외부 테이블을 생성합니까?, 우리는 매우 기쁠 것입니다. 더 많은 것을 알고 싶다면 데이터 계보 외부 테이블 생성, 저희 웹사이트를 방문해 주시기를 바랍니다. Gudu SQLFlow 자세한 내용은. (Ryan이 2022년 4월 25일에 편집)

Gudu SQLFlow Live를 사용해 보세요

SQLFlow 클라우드 버전

주간 뉴스레터 구독하기

Leave A Comment