tencent cloud

Video on Demand

ビデオコンテンツ認識

PDF
フォーカスモード
フォントサイズ
最終更新日: 2023-10-26 17:39:30
Tencent Cloud Video on Demand(VOD)サービスは2022年8月1日より、オーディオビデオコンテンツ認識の課金項目を新設し、ユーザーが開始したオーディオビデオコンテンツ認識タスクに対する課金を正式に開始します。詳細については、オーディオビデオコンテンツ認識の正式商用化に関するお知らせ をご参照ください。
オーディオビデオコンテンツ認識は、AIの力を借りてオーディオビデオコンテンツに対してインテリジェントな認識を行う機能であり、オフラインタスクです。オーディオビデオコンテンツ認識を使用することで、ビデオ画面の中の人の顔、文字、始点と終点、音声の中の文字を認識することができ、このオーディオビデオコンテンツ認識の結果に基づき、ビデオを的確かつ効果的に管理することができます。オーディオビデオコンテンツ認識には以下の機能が含まれます。
機能名
機能説明
活用例
フェイスレコグニション
画面内に登場する顔の認識
スターが画面に登場する位置のタグ付けを行います。
画面に登場した話題の人物について調べます。
音声全文認識
音声内に登場する全テキストの認識
スピーチ内容について字幕を生成します。
ビデオの音声内容に対するデータ分析を行います。
テキスト全文認識
画面内に登場する全テキストの認識
画面内のテキストに対するデータ分析を行います。
音声キーワード認識
音声内に存在するキーワードの認識
音声内のセンシティブワードを調べます。
音声内に出てきた特定のキーワードを検索します。
テキストキーワード認識
画面内に存在するキーワードの認識
画面内のセンシティブワードを調べます。
画面内に登場した特定のキーワードを検索します。
ビデオ先頭末尾認識
ビデオの先頭と末尾の認識
プログレスバーの中の先頭、末尾、本編の位置にタグ付けを行います。
ビデオの前後の不要な部分を一括削除します。
一部のコンテンツ認識機能は、素材コーパスに依存する必要があります。これにはパブリックコーパスとカスタマイズコーパスの2種類があります。
パブリックコーパス:VODのプリセットの素材コーパス。
カスタマイズコーパス:ユーザー自身で作成、管理する素材コーパス。
識別タイプ
パブリックコーパス
カスタマイズコーパス
フェイスレコグニション
サポートしています。素材の人物は主にエンターテイメントのスター、スポーツのスター、話題の人物です。
サポートしています。 サーバーAPIを呼び出して、人の顔のカスタマイズコーパスを管理します。
音声単語認識
この機能は現在サポートされていません。
サポートしています。サーバーAPIを呼び出してキーワードのコーパスを管理します。
文字単語認識
この機能は現在サポートされていません。
サポートしています。サーバーAPIを呼び出してキーワードのコーパスを管理します。

オーディオビデオコンテンツ認識テンプレート

オーディオビデオコンテンツ認識は複数の認識機能を統合しており、パラメータによって細かく制御する必要があります。制御のターゲットは以下のとおりです。
有効にする認識タイプ:コンテンツ認識の中のどの機能を有効にするか。
使用する素材コーパス:Face Recognitionに対して使用するのはパブリックコーパスかカスタマイズコーパスか。
フィルタリング点数の指定:Face Recognitionの信頼度が何点に達したら結果を返すか。
フィルタリングタグの指定:人の顔のタグがどの範囲にあれば結果を返すか。
一般的な操作の組み合わせを対象に、Video on Demandでは、プリセットオーディオビデオコンテンツ認識テンプレートを提供しています。その他、サーバーAPIを呼び出してカスタマイズしたオーディオビデオコンテンツ認識テンプレートを作成し、管理することができます。

タスクの開始

オーディオビデオコンテンツ認識タスクの開始には、「サーバーAPIから直接開始」、「コンソールから直接開始」、「アップロード時に実行したいタスクを指定」の3種類の方法があります。詳細内容は、ビデオ処理のタスクの開始をご参照ください。
以下は、各方法のオーディオビデオコンテンツ認識タスク開始についての説明です。
サーバーAPIProcessMediaの呼び出しによるタスク開始:リクエストの中のAiRecognitionTaskパラメータでオーディオビデオコンテンツ認識テンプレートのテンプレートIDを指定します。
コンソールでのビデオに対するタスク開始:サーバーAPIを呼び出してタスクフローを作成し、タスクフローの中でオーディオビデオコンテンツ認識タスクを設定します(MediaProcessTask.AiRecognitionTaskの中で指定)。コンソールでこのタスクフローを使用してビデオ処理を開始します。
サーバーからのアップロード時にタスクを指定: サーバーAPIを呼び出してタスクフローを作成し、タスクフローの中でオーディオビデオコンテンツ認識タスクを設定します(MediaProcessTask.AiRecognitionTaskの中で指定)。アップロードの申請procedureパラメータでこのタスクフローを指定します。
クライアントからのアップロード時にタスクを指定: サーバーAPIを呼び出してタスクフローを作成し、タスクフローの中でオーディオビデオコンテンツ認識タスクを設定します(MediaProcessTask.AiRecognitionTaskの中で指定)。クライアントからのアップロード署名procedureでこのタスクフローを指定します。
コンソールからのアップロード:サーバーAPIを呼び出してタスクフローを作成し、タスクフローの中でオーディオビデオコンテンツ認識タスクを設定します(MediaProcessTask.AiRecognitionTaskの中で指定)。コンソールでビデオをアップロードし、アップロードと同時にビデオに対する処理操作を実行を選択して、ビデオアップロード後にこのタスクフローを実行するよう指定します。

結果の取得

オーディオビデオコンテンツ認識タスクを開始した後、非同期の結果通知を待機するか、またはタスク確認を同期的に実行する方法のどちらかでビデオコンテンツ認識タスクの実行結果を取得できます。以下は、ビデオコンテンツ認識タスクの開始後、通常のコールバック方式での結果通知の例となります(値がnullのフィールドは省略)。
{
"EventType":"ProcedureStateChanged",
"ProcedureStateChangeEvent":{
"TaskId":"1400155958-Procedure-2e1af2456351812be963e309cc133403t0",
"Status":"FINISH",
"FileId":"5285890784363430543",
"FileName":"名作選",
"FileUrl":"http://1400155958.vod2.myqcloud.com/xxx/xxx/aHjWUx5Xo1EA.mp4",
"MetaData":{
"AudioDuration":243,
"AudioStreamSet":[
{
"Bitrate":125599,
"Codec":"aac",
"SamplingRate":48000
}
],
"Bitrate":1459299,
"Container":"mov,mp4,m4a,3gp,3g2,mj2",
"Duration":243,
"Height":1080,
"Rotate":0,
"Size":44583593,
"VideoDuration":243,
"VideoStreamSet":[
{
"Bitrate":1333700,
"Codec":"h264",
"Fps":29,
"Height":1080,
"Width":1920
}
],
"Width":1920
},
"AiRecognitionResultSet":[
{
"Type":"FaceRecognition",
"FaceRecognitionTask":{
"Status":"SUCCESS",
"ErrCode":0,
"Message":"",
"Input":{
"Definition":10
},
"Output":{
"ResultSet":[
{
"Id":183213,
"Type":"Default",
"Name":"張三",
"SegmentSet":[
{
"StartTimeOffset":10,
"EndTimeOffset":12,
"Confidence":97,
"AreaCoordSet":[
830,
783,
1030,
599
]
},
{
"StartTimeOffset":12,
"EndTimeOffset":14,
"Confidence":97,
"AreaCoordSet":[
844,
791,
1040,
614
]
}
]
},
{
"Id":236099,
"Type":"Default",
"Name":"lisi",
"SegmentSet":[
{
"StartTimeOffset":120,
"EndTimeOffset":122,
"Confidence":96,
"AreaCoordSet":[
579,
903,
812,
730
]
}
]
}
]
}
}
}
],
"TasksPriority":0,
"TasksNotifyMode":""
}
}

コールバックの結果の中で、ProcedureStateChangeEvent.AiRecognitionResultSetTypeFaceRecognitionとなる認識結果があり、顔認識を表します。
TypeFaceRecognitionの結果では、Output.ResultSetの中に認識した人物が2人含まれており、それぞれ張三とlisiとなっています。SegmentSetには人の顔がビデオに登場した時間帯(StartTimeOffsetEndTimeOffsetにより確定)および画面の中の座標(AreaCoordSetにより確定)が示されています。

ヘルプとサポート

この記事はお役に立ちましたか?

フィードバック