tencent cloud

Data Lake Compute

Spark環境の説明

ダウンロード
フォーカスモード
フォントサイズ
最終更新日: 2025-12-24 11:41:30

基本環境

現在のDLCのSpark基本実行環境は以下の通りです:
OS = Debian 11(bullseye)
Python = 3.9.2

基本イメージ

DLCでは以下のpysparkイメージを提供しており、必要に応じて選択できます:
spark:3.2.1-python
spark:3.2.1-python-ml
spark:3.2.1-python-ai

spark:3.2.1-python

このバージョンのイメージは基本的な実行環境を提供し、具体的な依存関係は以下の通りです:
Package Version
------------------ ---------
certifi 2022.6.15
charset-normalizer 2.1.0
greenlet 1.1.2
idna 3.3
numpy 1.23.0
pandas 1.4.3
pip 22.1.2
psycopg2-binary 2.9.3
pyarrow 8.0.0
PyMySQL 1.0.2
python-dateutil 2.8.2
pytz 2022.1
requests 2.28.1
setuptools 63.1.0
six 1.16.0
SQLAlchemy 1.4.39
urllib3 1.26.9
wheel 0.34.2

spark:3.2.1-python-ml

このバージョンのイメージは軽量な機械学習シナリオの実行環境を提供し、具体的な依存関係は以下の通りです:
Package Version
------------------ ---------
certifi 2022.6.15
charset-normalizer 2.1.0
greenlet 1.1.2
idna 3.3
joblib 1.1.0
networkx 2.8.4
numpy 1.23.0
packaging 21.3
pandas 1.4.3
patsy 0.5.2
pip 22.1.2
psycopg2-binary 2.9.3
pyarrow 8.0.0
PyMySQL 1.0.2
pyparsing 3.0.9
python-dateutil 2.8.2
pytz 2022.1
requests 2.28.1
scikit-learn 1.1.1
scipy 1.8.1
setuptools 63.1.0
six 1.16.0
SQLAlchemy 1.4.39
statsmodels 0.13.2
threadpoolctl 3.1.0
urllib3 1.26.9
wheel 0.34.2


spark:3.2.1-python-ai

このバージョンのイメージは、AIシナリオの実行環境を提供し、具体的な依存関係は以下の通りです:
Package                      Version
---------------------------- ---------
absl-py                      1.1.0
astunparse                   1.6.3
cachetools                   5.2.0
certifi                      2022.6.15
charset-normalizer           2.0.12
flatbuffers                  1.12
gast                         0.4.0
google-auth                  2.8.0
google-auth-oauthlib         0.4.6
google-pasta                 0.2.0
grpcio                       1.47.0
h5py                         3.7.0
idna                         3.3
importlib-metadata           4.11.4
joblib                       1.1.0
keras                        2.9.0
Keras-Preprocessing          1.1.2
libclang                     14.0.1
Markdown                     3.3.7
networkx                     2.8.4
numpy                        1.23.0
oauthlib                     3.2.0
opencv-python                4.6.0.66
opt-einsum                   3.3.0
packaging                    21.3
pandas                       1.4.3
Pillow                       9.1.1
pip                          22.1.2
protobuf                     3.19.4
pyarrow                      8.0.0
pyasn1                       0.4.8
pyasn1-modules               0.2.8
pyparsing                    3.0.9
python-dateutil              2.8.2
pytz                         2022.1
requests                     2.28.0
requests-oauthlib            1.3.1
rsa                          4.8
scikit-learn                 1.1.1
scipy                        1.8.1
setuptools                   62.6.0
six                          1.16.0
tensorboard                  2.9.1
tensorboard-data-server      0.6.1
tensorboard-plugin-wit       1.8.1
tensorflow                   2.9.1
tensorflow-estimator         2.9.0
tensorflow-io-gcs-filesystem 0.26.0
termcolor                    1.1.0
threadpoolctl                3.1.0
torch                        1.11.0
torchvision                  0.12.0
typing_extensions            4.2.0
urllib3                      1.26.9
Werkzeug                     2.1.2
wheel                        0.34.2
wrapt                        1.14.1
zipp                         3.8.0

仮想環境

デフォルトで提供されているイメージがアプリケーションの要件を満たさない場合、仮想環境方式で依存関係をパッケージ化できます。debian同源のオペレーティングシステムを使用し、python = 3.9.Xで依存関係をインストールおよびパッケージ化することをお勧めします。具体的な操作は以下の通りです:
#> docker run -it -v {YOUR-WORKING-DIR}:/data --rm python:3.9-slim /bin/bash
root@000000> cd /data
root@000000> python3 -m venv pyspark-venv
root@000000 (pysaprk-venv)> source pyspark-venv/bin/activate
root@000000 (pyspark-venv)> pip3 install -i https://mirrors.tencent.com/pypi/simple/  {YOUR-DEPENDENCIES}
root@000000> deactivate
root@000000> tar czvf pysarpk-venv.tar.gz pyspark-venv # 仮想環境をパッケージ化
root@000000> exit # dockerを終了

ヘルプとサポート

この記事はお役に立ちましたか?

フィードバック