tencent cloud

Data Lake Compute

履歴タスクインスタンス

PDF
フォーカスモード
フォントサイズ
最終更新日: 2025-12-25 10:46:40
履歴タスクインスタンスは、DLCでユーザーが実行したさまざまなタスクを記録および管理し、後続の追跡、再確認、最適化を容易にすることを目的としています。履歴タスクインスタンス機能により、ユーザーはタスクの開始および終了時間、実行ステータス(成功または失敗など)、入力および出力の詳細、生成されたログやエラー情報を含むタスクの実行状況を迅速に確認できます。これにより、ユーザーに監査と検索の利便性を提供し、タスクの健全性状態、潜在的な問題、リソース構成の最適化などを識別するのに役立ちます。

操作手順

1. 「データレイクコンピューティング DLC コンソール > 運用管理 > 履歴タスクインスタンス」にログインし、サービス地域を選択します。
2. 履歴タスクインスタンスページに入ると、管理者は過去45日間のすべての履歴実行タスクを確認でき、一般ユーザーは自分に関連する過去45日間のタスクを照会できます。
3. タスクタイプ、実行ステータス、作成者、タスク時間範囲、タスク名、タスクID、タスク内容、サブチャネルなどによるフィルタリング表示をサポートします。
4. タスクID/名称をクリックすると、基本情報、実行結果、タスクインサイト、タスクログなどのモジュールを含むタスクの詳細を確認できます。
5. ユーザーがタスク構成をクリックして変更し、作業の詳細にすばやくアクセスして構成を調整し、最適化できるようにサポートします。

履歴タスクインスタンス一覧

説明:
*フィールドはインサイト機能を有効にした後にサポートされます(タスクが完了した後にのみ統計可能)。有効化方法については、インサイト機能の有効化方法を参照してください。
フィールド名称
説明
タスクID
タスクの一意の識別子。
タスク名
プレフィックス_yyyymmddhhmmss_8桁uuid、yyyymmddhhmmssはタスク実行時間です。
プレフィックスルール
1. コンソールで送信されたジョブタスクのプレフィックスはジョブ名です。例えば、ユーザーが作成したジョブがcustomer_segmentation_jobで、2024.11.26 21:25:10に実行された場合、タスクIDはcustomer_segmentation_job_20241126212510_f2a65wk1となります。現在のデータ形式の制限により、ジョブ名は100文字以下です。
2. データ探索ページで送信されたSQLタイプのプレフィックスはsql_queryです。例:sql_query_20241126212510_f2a65wk1。
3. データ最適化タスクは、最適化タスクの異なるサブタイプのプレフィックスに基づいて、以下のようになります:
3.1 オプティマイザのプレフィックスはoptimizerのみです。
3.2 インスタンスの最適化SQLタイプはoptimizer_sqlです。
3.3 インスタンスのバッチ最適化タイプはoptimizer_batchです。
3.4 構成データ最適化戦略時に作成された構成タスクはoptimizer_configです。
4. データインポートタスク、プレフィックスはimport、例:import_20241126212510_f2a65wk1。
5. データエクスポートタスク、プレフィックスはexport、例:export_20241126212510_f2a65wk1。
6. Wedata 提出、接頭辞は wd、例:wd_20241126212510_f2a65wk1。
7. その他のインターフェース提出、接頭辞はcustomized、例:customized_20241126212510_f2a65wk1。
8. メタデータ管理ページでメタデータに対して操作を行う際に作成されるタスク、接頭辞はmetadata、例:metadata_20241126212510_f2a65wk1。
タスクタイプ
起動中
実行中
待機中
成功
失敗
キャンセル済み
期限切れ
タスクがタイムアウトしました
タスク内容
タスクの詳細内容。作業タイプのタスクは作業詳細のハイパーリンク、SQLタイプのタスクは完全なSQL文です。
タスクタイプ
作業タイプ、SQLタイプに分かれます。
タスクソース
このタスクの発生ソース。データ探索タスク、データ作業タスク、データ最適化タスク、インポートタスク、エクスポートタスク、メタデータ管理、Wedataタスク、インターフェース提出タスクをサポートします。
サブチャネル
ユーザーがインターフェースからタスクを提出する際、サブチャネルをカスタマイズできます。
計算リソース
このタスクを実行するために使用される計算エンジン/リソースグループ。
* 累計 CPU * 時間(消費CU*時)
Spark Executorの各コアのCPU実行時間の合計を統計的に計算し、単位は時間(クラスタのマシン起動時間と同等ではない。マシン起動後、必ずしもタスク計算に参加するわけではないため。最終的なクラスタのCU消費課金は請求書を基準とする)。
Spark シナリオでは、Spark Task の実行時間の直列加算 (秒) /3600 (単位: 時間) にほぼ等しい
(この指標はタスク完了後にのみ統計可能です)
実行総所要時間
タスクの開始から終了までの時間で、リソース不足による待機時間が含まれる場合があります。
1. Spark SQLタスクの場合、プラットフォームのスケジューリング時間 + エンジン内のキュー待ち時間 + エンジン内の実行時間となります。
2. Sparkタスクの場合、プラットフォームのスケジューリング時間 + エンジン起動時間 + エンジン内のキュー待ち時間 + エンジン内の実行時間となります。
* エンジン実行時間
そのタスクにインサイト結果がある場合、エンジン内の実行時間となり、実際の計算に要した時間を反映します。つまり、Sparkタスクの最初のTaskの実行開始からタスク終了までの時間となります。
具体的:タスクの各Spark Stageの最初のTaskから最後のTaskの完了までの時間の合計を統計します。タスク開始時のキュー待ち時間(つまり、タスクの提出からSpark Taskの実行開始までのスケジューリングなどの時間)は含まれず、また、タスク実行中に複数のSpark Stage間でexecutorリソースが不足しているためにTaskの実行待ちで消費された時間も含まれません。(この指標はタスク完了後に統計可能です)
* データスキャン量
このタスクがストレージから読み取った物理データ量は、SparkシナリオではSpark UIの「Stage Input Size」の合計にほぼ等しくなります。
* データスキャン件数
このタスクがストレージから読み取った物理データ件数は、SparkシナリオではSpark UIの「Stage Input Records」の合計にほぼ等しくなります。
作成者
ジョブタイプのタスクの場合、そのジョブの作成者となります。
実行者
そのタスクを実行するユーザー。
提出時間
ユーザーがタスクを提出した時間。
* エンジン実行時間
タスクが初めてCPUを占有して実行を開始する時間、Sparkエンジン内で最初のタスクが実行を開始する時間。
(この指標は、タスクが完了してから統計可能です)
* 出力ファイル数
この指標の収集には、Sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります。
タスクがINSERTなどのステートメントで書き込んだファイルの総数。
(この指標は、タスクが完了してから統計可能です)
* 出力小ファイル数
この指標の収集には、Sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります。
小ファイルの定義:出力される単一ファイルのサイズが4MB未満の場合、小ファイルと定義されます(パラメータspark.dlc.monitorFileSizeThresholdで制御、デフォルトは4MB、エンジングローバルまたはタスクレベルで設定可能)。
本指標の定義:タスクがINSERTなどのステートメントで書き込んだ小ファイルの総数。
(この指標はタスク完了後にのみ統計可能です)
*出力総行数
このタスクがデータを処理した後に出力されるレコード数は、SparkシナリオではSpark UIの「Stage Output Records」の合計にほぼ等しくなります。
*出力総サイズ
このタスクがデータを処理した後に出力されるレコードサイズは、SparkシナリオではSpark UIの「Stage Output Size」の合計にほぼ等しくなります。
*データシャッフル行数
SparkシナリオではSpark UIの「Stage Shuffle Read Records」の合計にほぼ等しくなります。
(この指標はタスク完了後にのみ統計可能です)
*データシャッフルサイズ
SparkシナリオではSpark UIの「Stage Shuffle Read Size」の合計にほぼ等しくなります。
(この指標はタスク完了後にのみ統計可能です)
*健康状態
タスクを分析し、タスクの健康状態を判断して最適化が必要かどうかを確認します。詳細はタスクインサイトをご参照ください。
(この指標はタスク完了後にのみ統計可能です)

履歴タスクインスタンスの詳細

基本情報

1. ユーザーは実行内容で具体的なタスク内容を確認できます。SQLタスクの場合は完全なSQL文を、ジョブタスクの場合はジョブの詳細とパラメータを確認できます。
2. ユーザーはリソース消費でタスクリソースに関する内容を確認できます。これには、消費CU*時間、実行総所要時間、エンジン実行時間、データスキャン量、計算リソース、カーネルバージョン、Driverリソース、Executorリソース、Executor数が含まれます。
3. ユーザーは基本情報でタスクの基本情報を確認できます。これには、タスク名、タスクID、タスクタイプ、タスクソース、作成者、実行者、提出時間、エンジン実行時間が含まれます。
4. SuperSQL SparkSQLまたはSuperSQL Prestoエンジンで実行されたタスクの場合、ユーザーはクエリ統計でタスクの進行状況バーを確認できます。これには、タスクの作成、タスクのスケジューリング、タスクの実行、結果の取得などの各段階の所要時間が含まれます。

実行結果

タスク完了後、ユーザーは実行結果ページでタスクの結果を確認できます。タスク結果には2種類あります:
1. ファイル書き込み情報:SuperSQLおよび標準エンジンSparkカーネルエンジンで実行されるファイル書き込みタスクの場合、ユーザーはファイル書き込み情報を確認できます。
ファイル平均サイズ
最小ファイルサイズ
最大ファイルサイズ
ファイル総サイズ
2. 実行結果:SQLタスククエリ文は、現在のタスクのクエリ結果を表示でき、ユーザーがクエリ結果をダウンロードすることをサポートします。

タスクインサイト

タスクが完了すると、ユーザーはタスクインサイトページでタスクインサイト結果を確認できます。各タスクで実行されたメトリクスの集計や最適化可能な問題の分析をサポートします。現在のタスクの実際の実行状況に基づき、DLCタスクインサイトはデータ分析とアルゴリズムルールを組み合わせて、適切なチューニング提案を提供します。詳細はタスクインサイトをご参照ください。

タスクログ

ユーザーはタスクログページで現在のタスクのログを確認できます。
説明:
ジョブタイプとBatchSQLタイプのみ、タスクログの確認をサポートしています。
SQLタイプのタスクは常駐クラスタで実行され、タスクレベルでログを表示できません。
関連するタスクを内部最適化タスクとして最適化し、クラスタログを表示する必要はありません。
1. Pod名を使用して異なるクラスタノード(Driver、Executorなど)のログを切り替えることがサポートされています。
2. ログタイプ(全部、Log4j、Stdout、Stderrなど)の切り替えがサポートされています。
説明:
2025年7月4日以降にアップグレードされたSparkエンジンイメージは、log4j、stdout、stderrのログを分離して表示する機能をサポートします。
過去のバージョンのイメージであるSparkエンジンの場合:
「すべて」または「Stderr」オプションを選択すると、すべてのログが表示されます。
「Log4j」または「Stdout」ログオプションを選択した場合、何も表示されません(空になります)。
エンジンをアップグレードする必要がある場合は、チケットを提出してサポートに連絡し、アップグレードを行ってください。
すべて:タスクのすべてのログ内容を表示し、問題の包括的な調査を容易にします。
Log4j:Sparkクラスタ自身が生成するログを表示し、クラスタの実行状態と内部情報を把握するのに役立ちます。
Stdout:ビジネスログを表示し、通常はユーザープログラムの正常な出力情報を含みます。
Stderr:標準エラーログを表示し、異常やエラー情報を迅速に捕捉するのに役立ちます。
3. 3種類のログレベルフィルターをサポート:All、Error、WARN。
4. このページには直近1000件のログのみ表示されます。すべてのログ記録を確認する必要がある場合は、ログをエクスポートしてください。
5. ログのエクスポート記録とエクスポートタスクの状態を確認できます。ログエクスポート記録では、ユーザーはログファイルをローカルに保存できます。

リソース使用量統計

タスク実行プロセス中のリソース消費状況をリアルタイムの変動グラフで視覚的に表示します。グラフは毎分自動更新され、最新データを報告します(収集頻度の関係で、5秒未満のタスクには変動グラフが表示されない場合があります)。これにより、ユーザーはリソース使用傾向を動的に監視できます。
説明:
この機能は2025-07-01以降のバージョンのSparkエンジンでのみサポートされています。
SQLタスク:Executorコアのリアルタイム使用数を統計(Driverコアは含まず)、SQLタスクの計算リソース消費を正確に反映します。
バッチ処理タスク:すべての起動コア数(Driverコアを含む)を統計し、バッチタスクのリソース占有状況を包括的に表示します。

ヘルプとサポート

この記事はお役に立ちましたか?

フィードバック