tencent cloud

ドキュメントMedia Processing Service導入ガイドクライアントサイドSDKの導入

クライアントサイドSDKの導入

PDF
フォーカスモード
フォントサイズ
最終更新日: 2025-11-05 14:19:00
クライアントサイドSDKは、Tencent Cloudが提供する音声・動画のクライアントサイド製品向け機能群です。ビデオエンコード、音声エンハンスメント、映像エンハンスメントの3種類の機能別SDKが含まれ、お客様の様々なシナリオニーズに特化した製品機能を提供し、モバイル、Web、PCなど、様々なクライアントへの導入をサポートします。


クライアントサイドビデオエンコードSDK

TSCトランスコードクライアントサイドビデオエンコーダーは、クライアントサイドにおける低リソース、低遅延、高画質のシナリオ向けに開発されたエンコーダーです。ハードウェアエンコードと比較した際のメリットは以下の通りです。
1. 安定性と信頼性が高く、起動が速い。
2. 同等の画質でビットレートを削減し、伝送の安定性を向上させ、下り配信の帯域幅を節約し、ストレージコストを削減します。
3. 同等のビットレートで画質を向上させ、ユーザー体験を高めます。
4. 豊富な機能で、多様なビジネスニーズに応えます。例:ROIエンコーディングによる顔領域の画質向上、ネットワークの変動に応じたエンコード設定の動的調整など。

クライアントサイド音声SDK

クライアントサイド音声SDKは、音声エンコードと音声エンハンスメント機能を提供します。適応型ノイズ抑制、アコースティックエコーキャンセレーション、自動ゲイン制御などの効果を実現し、音質を大幅に向上させ、エコーやノイズを除去します。
詳細はTSCクライアントサイド音声SDKをご参照ください。

クライアントサイドエンハンスメントSDK

クライアントサイドエンハンスメントSDKは、高効率な画像処理アルゴリズムとAIモデルの推論能力に基づき、クライアントサイドでのビデオ超解像、画質改善、フレーム補間などの機能を実現します。

TSCクライアントサイドビデオエンコードSDK

製品概要

VODやライブ配信のエンコードと比較して、クライアントサイドのエンコードには異なるソリューションが必要です。
エンコードモード
VOD
CSS
クライアントサイドエンコード
代表的なビジネス
Tencent Video、Weixin Channelsなど、業界の主要なオンデマンドサービス
Weixin Channels Live、Tencent Sports Liveなど、業界の主要なライブ配信サービス
Tencent Meeting、WeChatビデオ通話、5G遠隔制御などのサービス
遅延要件
極限の圧縮率を追求し、遅延要件なし
高い圧縮率を追求し、秒単位の遅延を許容
高い圧縮率と同時にゼロ遅延を要求
リアルタイム性要件
極限の圧縮率を追求し、リアルタイム要件なし
マルチスレッド下での複数フレームの平均的なリアルタイム性を許容
シングルスレッド下でのエンコードのリアルタイム性を要求
ネットワーク条件の制約
エンコードプロセスはネットワーク状態に依存せず、エンコード設定は固定される
エンコードプロセスはネットワーク状態に依存せず、エンコード設定は固定される
エンコードプロセスはネットワーク状態と強く関連し、ネットワーク状態に応じてエンコード設定を動的に調整する必要がある
シナリオの特徴
1 -> N、インタラクションなし
1 -> N、インタラクションなし
N <-> N、強いインタラクションあり
ソリューション
サーバーサイドエンコーディング
サーバーサイドエンコーディング
クライアントサイドエンコーディング
TSCトランスコードクライアントサイドビデオエンコーダーは、クライアントサイドにおける低リソース、低遅延、高画質のシナリオ向けに開発されたエンコーダーです。ハードウェアエンコードと比較した際のメリットは以下の通りです。
1. 安定性と信頼性が高く、起動が速い。
2. 同等の画質でビットレートを削減し、伝送の安定性を向上させ、下り配信の帯域幅を節約し、ストレージコストを削減します。
3. 同等のビットレートで画質を向上させ、ユーザー体験を高めます。
4. 豊富な機能で、多様なビジネスニーズに応えます。例:ROIエンコーディングによる顔領域の画質向上、ネットワークの変動に応じたエンコード設定の動的調整など。

SDK導入フロー


1. 評価・試用:お客様にシステムプラットフォームと要件情報をご提供いただき、製品トライアルをお申し込みください。
システムプラットフォーム:Android、iOS、Windows、macOSなど。
利用シーン:ライブ配信、オンデマンド。
エンコード仕様:エンコード形式、解像度、フレームレート、ビットレート、遅延要件など。
最適化目標:ビットレート削減、画質向上、CPU負荷軽減、およびそれに対応する評価指標(PSNR、SSIM、VMAFなど)。
2. 開発・統合:テスト版SDKをアプリに統合し、効果測定とカスタマイズ最適化を実施します。
お客様の効果測定結果と具体的なビジネスシナリオの要件に基づき、詳細な最適化サポートを提供します。
3. リリース:ライセンスを申請し、ライセンス認証付きの製品版SDKを統合。テストを経てアプリをリリースします。
ライセンスの有効期限が近づいた、または切れた後、再度ライセンスの更新を申請できます。

SDKの統合

ビデオエンコードSDKはC/C++/アセンブリ言語で実装されており、各システムプラットフォームに統一されたCインターフェースを提供します。

Android

● armv7、armv8バージョンのダイナミックライブラリを提供。アプリケーションはNDK方式で統合します。
● Javaインターフェースのラッパーを提供。インターフェースはAndroidのハードウェアエンコードMediaCodecとほぼ同じで、MediaCodecからの置き換えが容易です。

iOS

armv8、x86_64バージョンのxcframeworkを提供します。

macOS

armv8、x86_64バージョンのframeworkを提供します。

Windows

x86、x86_64バージョンのダイナミックライブラリを提供します。

ビデオエンコードの基本フロー



TSCクライアントサイド音声SDK

製品紹介

クライアントサイド音声SDKは、音声エンコードと音声エンハンスメント機能を提供し、音質を大幅に向上させ、エコーやノイズを除去できます。
各バージョンの具体的な機能詳細は以下の通りです。
機能項目
スタンダード版
プロフェッショナル版
エンタープライズ版
アコースティックエコーキャンセレーション
対応
対応
対応
自動ゲイン制御
対応
対応
対応
適応型ノイズ抑制
対応
対応
対応
エコーキャンセレーション(音楽モード)
-
対応
対応
ラウドネスノーマライゼーション
-
対応
対応
AIインテリジェントノイズリダクション
-
対応
対応
音声エンコード
-
-
対応
AI Codec
-
-
対応

リアルタイム通信における音声の3A技術

音声の3A技術とは、音声信号処理における一連の基本機能群であり、リアルタイム通信システム(ビデオ会議、通話、ライブ配信の共同ホストなど)で一般的に使用されます。これにより、高品質な音声信号の伝送を保証し、より良い通信品質と聴覚体験を提供します。3Aはそれぞれ、適応型ノイズ抑制(Adaptive Noise Suppression, ANS)、アコースティックエコーキャンセレーション(Acoustic Echo Cancellation, AEC)、および自動ゲイン制御(Automatic Gain Control, AGC)を指します。
リアルタイム通信の音声処理フロー
リアルタイム通信の音声処理フロー

適応型ノイズ抑制(Adaptive Noise Suppression, ANS)
ANSの主な機能は、音声信号に含まれる背景ノイズ成分を除去・低減し、音声の明瞭度と知覚品質を向上させることです。加法性ノイズモデルの仮定に基づき、マイクで集音された音声信号は純粋な音声信号とノイズの重ね合わせと見なせます。音声の非発話区間でノイズを追跡・推定し、発話区間でそのノイズ成分のエネルギーを減算することで、よりクリアな音声信号が得られます。
アコースティックエコーキャンセレーション(Acoustic Echo Cancellation, AEC)
AECは主に、音声通信プロセスにおけるエコー問題を解決します。通話中、スピーカーから再生された音が直接または反射してマイクに拾われ、遠隔地のユーザーに自分の声が聞こえてしまうことがあります。これは通話品質を著しく妨げます。AEC技術は、遠隔地からの参照信号に基づいて近端の信号を処理し、このエコー現象を効果的に除去または低減することで、通話体験を向上させます。
自動ゲイン制御(Automatic Gain Control, AGC)
AGCは主に、音声信号の伝送過程で音量を調整する役割を担います。音源の音量が小さすぎる、または大きすぎると、通話体験に大きな影響を与えます。AGCは、オーディオストリームのラウドネスを自動で認識し、音量レベルを動的に調整して、常に快適な範囲内に保ちます。AGCは、録音デバイスの性能差、話者の声量の大小、距離の遠近などによって引き起こされる音量の不安定さを緩和します。

利用シーン

SDKは、ストリーム配信時のアップリンク音声エンコード前処理、およびストリーム受信時のダウンリンク音声デコード後処理に適用でき、音質を向上させます。現在、Android、iOS、Windows、macOSのクライアントをサポートしています。
Real-time communication audio link
Real-time communication audio link

オンライン教育シナリオ:ノイズとエコーを除去し、授業中の音声の明瞭度を向上させます。
ゲーム内ボイスチャット:音量を均一化し、大小の声をバランス良く調整することで、プレイヤーの聴覚体験とゲーム体験を向上させます。
ライブ配信シナリオ:配信者の声のノイズ除去とゲイン制御により、ボイスチャットやカラオケ配信などのシーンで、ライブ配信全体の品質を向上させます。

SDK APIの呼び出しフロー





TSCクライアントサイドエンハンスメントSDK

製品紹介

クライアントサイドエンハンスメントSDKは、高効率な画像処理アルゴリズムとAIモデルの推論能力に基づき、クライアントサイドでのビデオ超解像、画質改善、フレーム補間などの機能を実現します。
各バージョンの具体的な機能詳細は以下の通りです。
機能項目
スタンダード版
プロフェッショナル版
エンタープライズ版
標準超解像度
対応
対応
対応
標準超解像度+補正パラメータ
(コントラスト/色彩/輝度)
対応
対応
対応
プロフェッショナル超解像度
-
対応
対応
AI画質改善
-
対応
対応
AIフレーム補間
-
-
対応






スタンダード版の強みはパフォーマンスです。弊社のアルゴリズムは、極めて低い処理時間と消費電力で、良好な超解像効果を実現します。ほぼすべての性能のスマートフォンに対応します。
スタンダード版には、画像の輝度、彩度、コントラストを調整できる画像補正機能も提供されています。
プロフェッショナル版の強みは効果です。AIモデルの推論を通じて、元の画像に欠けていたテクスチャのディテールを生成し、最高の画像補正と超解像効果を実現します。プロフェッショナル版はデバイスの計算能力を要求するため、ミドルレンジからハイエンドのスマートフォンでのみ使用することを推奨します。

製品パフォーマンス

標準超解像度
システム
デバイスモデル
デバイス構成
基本超解像度パラメータ
CPU
(%)
メモリ
(MB)
フレームレート
GPU
(%)
消費電力
(mAh)
Android
HUAWEI Mate50
(2022)
チップ:Snapdragon 8+Gen1
CPU:3.0 GHz
GPU:Adreno 730
バッテリー:4272.8mAh
720P-オフ
2.8
48
59.9
5
138.01
720Px1.5倍
3
64
60.4
10
196.55
576Px1.25倍
3
60.1
59.9
7
/
4Kx1.25倍
3
163.2
59.9
46.4
/
Android
Sony Xperia 5 II
(2020)
チップ:Snapdragon
865CPU:2.84 GHz
GPU:Adreno 650
バッテリー:3104mAh
720P-オフ
1
135.9
59.1
4
133.78
720Px1.5倍
2
146.8
59.2
10
152.41
576Px1.25倍
2
139.2
59.2
6
/
4Kx1.25倍
2
311.2
59.2
46.7
/
Android
小米6
(2017)
チップ:Snapdragon835
CPU:2.45GHz
GPU:Adreno 540
720Px1.5倍
2.9
119
60
18.9
/
Android
Redmi Note 4
(2016)
チップ:MediaTek MT6797 Helio X20
CPU:mt6797 2.0GHz
GPU:ARM Mali-T880
720Px1.5倍
9.4
137.9
60.6
74.5
/
Android
Honor 8 Lite
(2016、エントリーモデル)
チップ:Hisilicon Kirin 655
CPU:hi6250 2.3GHz
GPU:ARM Mali-T830
720P-オフ
2
77
58.8
非対応
/
720Px1.5倍
2
83.4
58.1
非対応
/
iOS
iPhone 13
(2021)
CPU:3.23GHz
GPU:クアッドコア
バッテリー:3065.65mAh
720P-オフ
5.9
54.4
59.5
15.9
64.99
720Px1.5倍
6
63.8
59.5
24
88.29
576Px1.25倍
4.7
57.3
59.5
18.9
/
4Kx1.25倍
9.2
162.2
59.5
60.6
/
iOS
iPhone 6P
(2014)
CPU:Apple A9
GPU: PowerVR GT7600
720P-オフ
13
40.5
59.5
22.8
/
720Px1.5倍
18.8
49.4
59.6
50.2
/

プロフェッショナル超解像度
システム
デバイスモデル
デバイス構成
プロフェッショナル超解像度パラメータ
CPU
(%)
メモリ
(MB)
フレームレート
GPU
(%)
消費電力
(mAh)
Android
HUAWEI Mate50
(2022)
チップ:Snapdragon 8+Gen1
CPU:3.0 GHz
GPU:Adreno 730
バッテリー:4272.8mAh
720P-オフ
3
66
60
3
138.01
720Px1.5倍
13
123
48
10
342.9
576Px1.25倍
13
105
60
7
333.13
540Px2倍
13
105
60
11
322.73
Android
Sony Xperia 5 II
(2020)
チップ:Snapdragon
865CPU:2.84 GHz
GPU:Adreno 650
バッテリー:3104mAh
720P-オフ
1
142
59.1
3
133.78
720Px1.5倍
13
196
39
8
294.06
576Px1.25倍
13
148
58
8
/
540Px2倍
13
159
40
7
/
iOS
iPhone 13
(2021)
CPU:3.23GHz
GPU:クアッドコア
バッテリー:3065.65mAh
720P-オフ
6
73
60
14
64.99
720Px1.5倍
15
94
40
14
/
576Px1.25倍
10
84
60
16
/
540Px2倍
9
76
60
21
/
AI画質改善
システム
デバイスモデル
デバイス構成
プロフェッショナルエンハンスメント解像度
CPU
(%)
メモリ
(MB)
フレームレート
GPU
(%)
Android
HUAWEI Mate50
(2022)
チップ:Snapdragon 8+Gen1
CPU:3.0 GHz
GPU:Adreno 730
バッテリー:4272.8mAh
720P
13
140
55
7
576P
13
126
74
5
540P
13
130
78
7
Android
Sony Xperia 5 II
(2020)
チップ:Snapdragon
865CPU:2.84 GHz
GPU:Adreno 650
バッテリー:3104mAh
720P
13
184
41
5
576P
13
174
59
5
540P
13
142
43
4
iOS
iPhone 13
(2021)
CPU:3.23GHz
GPU:クアッドコア
バッテリー:3065.65mAh
720P
17
91
40
11
576P
12
70
60
11
540P
9
68
60
11

利用シーン

1. クライアントサイドのプレイヤーでエンハンスメントを行い、ビデオ再生の画質と滑らかさを向上させます。

2. ビデオ配信の解像度とビットレートを下げることでコストを節約し、クライアントサイドの再生エンハンスメントで体験の損失を補います。

例えば、クラウドゲームのシナリオでは、クライアントサイドのリアルタイムビデオ超解像能力を活用することで、クラウド側のレンダリングとエンコードの計算負荷を低減し、伝送帯域幅を節約してコストを削減できます。以下の例では、クラウド側で720P(5.6Mbps)のゲーム映像を転送し、クライアント側での再生時にリアルタイムで1080Pへ超解像した場合、クラウド側で1080P(8.2Mbps)を転送した場合に近い視聴効果が得られ、帯域幅を30%節約できます。

SDKの統合

互換性

Androidプラットフォーム:Android 5.0以上(API 21, OpenGL ES 3.1)に適用されます。
iOSプラットフォーム:iPhone 5s以降のデバイスに適用されます。最小システムバージョンはiOS 12です。

パッケージサイズ

スタンダード版:Android AAR 約0.3MB(arm64-v8a)、iOS Framework 0.4MB。
プロフェッショナル版:Android AAR 約2.1MB(arm64-v8aアーキテクチャのみ)、iOS Framework 1.9MB。

導入ガイド

AndroidiOSの導入ガイドをご参照ください。


ヘルプとサポート

この記事はお役に立ちましたか?

フィードバック