GCP-Professional Data Engineer

sasa :)
1 min readApr 29, 2020

--

#2020–04考試心得

趁我還記得時,做點筆記吧!

GCP營業項目(?)眾多

https://cloud.google.com/solutions/data-lifecycle-cloud-platform?hl=zh-tw

這裡memo了一下考題範圍(上面沒有全考不要緊張)

然後稍微提示了一下考試重點

Pub/Sub

Decouple, Streaming, IOT

global

ACK

At-lease-one-delivery

不保證訊息傳送順序

Stackdriver

logging, monitoring, setting alert

Transfer Appliance

離線資料搬移,超過10TB建議

(1~10TB可以用Storage Transfer Service,<1TB用gsutil搬一搬就好[1])

[1]https://cloud.google.com/storage-transfer/docs/overview

Cloud Storage

gsutil rsync: 同步兩個地方(bucket or directory都可以)的檔案[1]。

若有大的檔案要上傳可以使用parallel composite uploads[2]。但parallel只能放standard。

ps. 其他大部分的重點在architect的考試中才會出現XD

[1]https://cloud.google.com/storage/docs/gsutil/commands/rsync

[2]https://cloud.google.com/storage/docs/gsutil/commands/cp#parallel-composite-uploads

Cloud SQL

storage max=30TB,超過請用Cloud Spanner

regional (not global)

master instance in zoneA, failover replica in zone B → regional

Cloud Datastore

document DB/NoSQL DB

horizontal scalable

SQL-like query

automatically handle sharing and replication

Petabyte+

Cloud Bigtable

latency<100ms

Petabyte+(最少資料量為300GB,performs best with 1TB or more)

IOT

multi-cluster:failover / single-cluster: 讀寫分離[1]

全託管,key-value DB/NoSQL DB

HBase

support single-row transaction

[1]https://cloud.google.com/bigtable/docs/replication-settings#regional-failover

BigQuery

Petabyte+, scalable cloud data warehouse

ANSI SQL/real time

dataset的權限管理(怎麼設定誰可以看到什麼)

全託管,serverless

以查詢回來的量計費:因此(1)避免用select * 。(2)用preview可以看到回來的量大概有多少。(3)可以利用cli裡面的 - -dry_run看一下量。

用limit不會省到錢,因為他是先撈回來後才limit XD

Cloud Spanner

global

transactional consistent

horizontal scalable

Cloud Dataflow

Apache Beam

Cloud Dataproc

Hadoop and Spark job

提供一個環境可以讓你在上面直接部署Hadoop and Spark(自己管)

Cloud Dataprep

清理資料(clean data)的好用視覺化工具,可以不懂程式就做資料清理

Cloud Composer

GCP上的apache airflow,全託管,專門做流程管理

--

--

sasa :)
sasa :)

Written by sasa :)

目標是做一個讓所有人都聽得懂技術語言的transfer person

No responses yet