名前空間 Microsoft::CognitiveServices::Speech

概要

メンバーズ 説明
enum PropertyId を する 音声プロパティ ID を定義します。 バージョン 1.4.0 で変更されました。
列挙型 OutputFormat を する 出力形式。
enum ProfanityOption を する 不適切な表現 (悪口) を削除するか、不適切な単語の文字を星に置き換えます。 バージョン 1.5.0 で追加されました。
列挙型 ResultReason を する 認識結果が生成される可能性のある理由を指定します。
enum CancellationReason を する 認識結果が取り消される可能性がある理由を定義します。
enum CancellationErrorCode を する CancellationReason が Error の場合のエラー コードを定義します。 バージョン 1.1.0 で追加されました。
列挙型 NoMatchReason を する 認識結果が認識されない可能性がある理由を定義します。
enum ActivityJSONType を する アクティビティの json 値に使用できる型を定義します。 バージョン 1.5.0 で追加されました。
enum SpeechSynthesisOutputFormat を する 可能な音声合成出力オーディオ形式を定義します。 バージョン 1.19.0 で更新されました。
列挙型 StreamStatus を する オーディオ データ ストリームの使用可能な状態を定義します。 バージョン 1.4.0 で追加されました。
enum ServicePropertyChannel を する プロパティ設定をサービスに渡すために使用されるチャネルを定義します。 バージョン 1.5.0 で追加されました。
enum RecognitionFactorScope を する 認識係数を適用するスコープを定義します。
Enum PronunciationAssessmentGradingSystem を する 発音スコア調整のポイント システムを定義します。既定値は FivePoint です。 バージョン 1.14.0 で追加されました。
enum PronunciationAssessment粒度 発音評価の粒度を定義します。既定値は Phoneme です。 バージョン 1.14.0 で追加されました。
enum SynthesisVoiceType を する バージョン 1.16.0 で追加された合成音声の種類を定義します。
enum SynthesisVoiceGender を する バージョン 1.17.0 で追加された合成音声の性別を定義します。
enum SynthesisVoiceStatus する 合成音声の状態を定義します。
enum SpeechSynthesisBoundaryType を する バージョン 1.21.0 で追加された音声合成境界イベントの境界の種類を定義します。
enum SegmentationStrategy を する 音声フレーズがいつ終了し、最終的な認識結果を生成するかを決定するために使用される戦略。 使用できる値は、"Default"、"Time"、および "Semantic" です。
クラス AudioDataStream オーディオ データをストリームとして操作するために使用されるオーディオ データ ストリームを表します。 バージョン 1.4.0 で追加されました。
クラス AutoDetectSourceLanguageConfig 自動検出ソース構成を定義するクラス 1.13.0 で更新されました。
クラス AutoDetectSourceLanguageResult 1.8.0 で追加された、自動検出されたソース言語の結果が含まれています。
ClassLanguageModel クラスを する 動的文法シナリオの文法の一覧を表します。 バージョン 1.7.0 で追加されました。
クラス Connection Connection は、指定した Recognizer の音声サービスへの接続を管理するためのプロキシ クラスです。 既定では、Recognizer は、必要に応じてサービスへの接続を自律的に管理します。 Connection クラスには、ユーザーが接続を明示的に開いたり閉じたりしたり、接続状態の変更をサブスクライブしたりするための追加のメソッドが用意されています。 接続の使用は省略可能です。 これは、接続状態に基づいてアプリケーションの動作を微調整する必要があるシナリオを対象としています。 必要に応じて、Open() を呼び出して、この接続に関連付けられている認識エンジンで認識を開始する前に、サービス接続を手動で開始できます。 認識を開始すると、Open() または Close() の呼び出しが失敗する可能性があります。 これは、認識エンジンや継続的な認識には影響しません。 接続はさまざまな理由で低下する可能性があります。認識エンジンは、継続的な操作を保証するために必要に応じて常に接続の再確立を試みます。 これらすべての場合、接続/切断イベントは接続状態の変更を示します。 バージョン 1.17.0 で更新されました。
クラス ConnectionEventArgs ConnectionEvent のデータを提供します。 バージョン 1.2.0 で追加されました。
クラス ConnectionMessage ConnectionMessage は、音声サービスとの間で送受信される実装固有のメッセージを表します。 これらのメッセージはデバッグ目的で提供され、Azure Cognitive Services Speech Service の運用環境のユース ケースには使用しないでください。 Speech Service との間で送受信されるメッセージは、予告なしに変更されることがあります。 これには、メッセージの内容、ヘッダー、ペイロード、順序などが含まれます。バージョン 1.10.0 で追加されました。
クラス ConnectionMessageEventArgs ConnectionMessageEvent のデータを提供します。
クラス EmbeddedSpeechConfig 埋め込み (オフライン) 音声構成を定義するクラス。
クラス EventArgs イベント引数の基本クラス。
クラス EventSignal クライアントは、イベントシグナルに接続してイベントを受信するか、イベントシグナルから切断してイベントの受信を停止できます。
クラス EventSignalBase クライアントは、イベントシグナルに接続してイベントを受信するか、イベントシグナルから切断してイベントの受信を停止できます。
クラスの文法 音声認識をカスタマイズするための基本クラス文法を表します。 バージョン 1.5.0 で追加されました。
クラス GrammarList 動的文法シナリオの文法の一覧を表します。 バージョン 1.7.0 で追加されました。
クラス GrammarPhrase ユーザーが読み上げることができる語句を表します。 バージョン 1.5.0 で追加されました。
クラス HybridSpeechConfig 音声認識または音声合成用のハイブリッド (クラウドおよび埋め込み) 構成を定義するクラス。
クラス KeywordRecognitionEventArgs KeywordRecognizerによって送信されるイベントのクラス。
クラス KeywordRecognitionModel StartKeywordRecognitionAsync メソッドで使用されるキーワード認識モデルを表します。
クラス KeywordRecognitionResult KeywordRecognizerによって出力される結果を定義するクラス。
クラス KeywordRecognizer キーワードのアクティブ化のみを処理するために特化された認識エンジンの種類。
phraseListGrammar クラスを する 動的文法シナリオのフレーズ リスト文法を表します。 バージョン 1.5.0 で追加されました。
クラス の PronunciationAssessmentConfig 発音評価の構成を定義するクラスが 1.14.0 で追加されました。
クラス の PronunciationAssessmentResult 発音評価結果のクラス。
クラス PropertyCollection プロパティ コレクションからプロパティ値を取得または設定するクラス。
クラス AsyncRecognizer を する AsyncRecognizer 抽象基底クラス。
クラス BaseAsyncRecognizer BaseAsyncRecognizer クラス。
クラス RecognitionEventArgs RecognitionEvent のデータを提供します。
クラス RecognitionResult 認識操作の結果に関する詳細情報が含まれます。
クラス CancellationDetails 結果が取り消された理由に関する詳細情報が含まれます。
noMatchDetails クラスを する NoMatch 認識結果の詳細情報が含まれています。
クラス Recognizer を する 認識エンジンの基本クラス。
クラス SessionEventArgs セッション イベント引数の基本クラス。
クラス SmartHandle スマート ハンドル クラス。
クラス SourceLanguageConfig 1.8.0 で追加されたソース言語の構成を定義するクラス。
クラス SourceLanguageRecognizer ソース言語認識エンジンのクラス。 このクラスは、スタンドアロン言語検出に使用できます。 バージョン 1.17.0 で追加されました。
SpeechConfig クラスを する 音声認識や音声合成のための構成を定義するクラスです。
クラス SpeechRecognitionEventArgs 音声認識イベント引数のクラス。
クラス SpeechRecognitionCanceledEventArgs 音声認識のクラスがイベント引数を取り消しました。
クラス SpeechRecognitionModel 音声認識モデルの情報。
クラス SpeechRecognitionResult 音声認識結果の基本クラス。
SpeechRecognizer クラスの 音声認識エンジンのクラス。
クラス SpeechSynthesisBookmarkEventArgs 音声合成ブックマーク イベント引数のクラス。 バージョン 1.16.0 で追加されました。
クラス SpeechSynthesisEventArgs 音声合成イベント引数のクラス。 バージョン 1.4.0 で追加されました。
クラス SpeechSynthesisRequest 音声合成要求を定義するクラス。 このクラスはプレビュー段階であり、変更される可能性があります。 バージョン 1.37.0 で追加されました。
PersonalVoiceSynthesisRequest クラスの 個人の音声 (aka.ms/azureai/personal-voice) の音声合成要求を定義するクラス。 このクラスはプレビュー段階であり、変更される可能性があります。 バージョン 1.39.0 で追加されました。
クラス SpeechSynthesisResult テキスト読み上げ合成の結果に関する情報が含まれています。 バージョン 1.4.0 で追加されました。
クラス SpeechSynthesisCancellationDetails 結果が取り消された理由に関する詳細情報が含まれます。 バージョン 1.4.0 で追加されました。
クラス SpeechSynthesisVisemeEventArgs 音声合成の口形素イベント引数のクラス。 バージョン 1.16.0 で追加されました。
クラス SpeechSynthesisWordBoundaryEventArgs 音声合成ワード境界イベント引数のクラス。 バージョン 1.7.0 で追加されました。
クラス SpeechSynthesizer 音声シンセサイザーのクラス。 バージョン 1.14.0 で更新されました。
クラス SpeechTranslationModel 音声翻訳モデルの情報。
クラス SynthesisVoicesResult 音声シンセサイザーの音声リストからの結果に関する情報が含まれています。 バージョン 1.16.0 で追加されました。
クラス VoiceInfo バージョン 1.17.0 で更新された合成音声情報に関する情報が含まれています。

メンバーズ

列挙型プロパティID

価値観 説明
SpeechServiceConnection_Key Cognitive Services Speech Service サブスクリプション キー。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechConfig::FromSubscriptionを使用します。
SpeechServiceConnection_Endpoint Cognitive Services Speech Service エンドポイント (URL)。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechConfig::FromEndpointを使用します。 注: このエンドポイントは、アクセス トークンの取得に使用されるエンドポイントと同じではありません。
SpeechServiceConnection_Region Cognitive Services Speech Service リージョン。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechConfig::FromSubscriptionSpeechConfig::FromEndpointSpeechConfig::FromHostSpeechConfig::FromAuthorizationTokenを使用します。
SpeechServiceAuthorization_Token Cognitive Services Speech Service 承認トークン (アクセス トークンとも呼ばれる)。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、 SpeechConfig::FromAuthorizationTokenSpeechRecognizer::SetAuthorizationToken、またはTranslationRecognizer::SetAuthorizationTokenを使ってください。
SpeechServiceAuthorization_Type Cognitive Services Speech Service 承認の種類。 現在使用されていません。
SpeechServiceConnection_EndpointId Cognitive Services Custom Speech または Custom Voice Service エンドポイント ID。通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechConfig::SetEndpointIdを使用します。 注: エンドポイント ID は、Custom Speech ポータルの [エンドポイントの詳細] の下に表示されます。
SpeechServiceConnection_Host Cognitive Services Speech Service ホスト (URL)。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechConfig::FromHostを使用します。
SpeechServiceConnection_ProxyHostName Cognitive Services Speech Service への接続に使用するプロキシ サーバーのホスト名。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechConfig::SetProxyを使用します。 注: このプロパティ ID はバージョン 1.1.0 で追加されました。
SpeechServiceConnection_ProxyPort Cognitive Services Speech Service への接続に使用されるプロキシ サーバーのポート。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechConfig::SetProxyを使用します。 注: このプロパティ ID はバージョン 1.1.0 で追加されました。
SpeechServiceConnection_ProxyUserName Cognitive Services Speech Service への接続に使用するプロキシ サーバーのユーザー名。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechConfig::SetProxyを使用します。 注: このプロパティ ID はバージョン 1.1.0 で追加されました。
SpeechServiceConnection_ProxyPassword Cognitive Services Speech Service への接続に使用するプロキシ サーバーのパスワード。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechConfig::SetProxyを使用します。 注: このプロパティ ID はバージョン 1.1.0 で追加されました。
SpeechServiceConnection_Url 音声構成から構築された URL 文字列。 このプロパティは読み取り専用です。 SDK では内部的に使用されています。 注: バージョン 1.5.0 で追加されました。
SpeechServiceConnection_ProxyHostBypass プロキシを使用しないホストの一覧を指定します。 この設定は、他のすべての構成をオーバーライドします。 ホスト名はコンマで区切られ、大文字と小文字は区別されません。 ワイルドカードはサポートされていません。
SpeechServiceConnection_TranslationToLanguages ターゲット翻訳言語として使用されるコンマ区切り言語の一覧。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechTranslationConfig::AddTargetLanguage と SpeechTranslationConfig::GetTargetLanguages を使用します。
SpeechServiceConnection_TranslationVoice Cognitive Service テキスト読み上げ Service 音声の名前。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに SpeechTranslationConfig::SetVoiceName を使用します。 注: 有効な音声名は、見つけることができます。
SpeechServiceConnection_TranslationFeatures 翻訳機能。 内部使用の場合。
SpeechServiceConnection_RecoMode Cognitive Services Speech Service 認識モード。 "INTERACTIVE"、"CONVERSATION"、"DICTATION" を指定できます。 このプロパティは読み取り専用です。 SDK では内部的に使用されています。
SpeechServiceConnection_RecoLanguage 認識される音声言語 (BCP-47 形式)。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechConfig::SetSpeechRecognitionLanguageを使用します。
Speech_SessionId セッション ID。この ID は、オーディオ入力ストリームの特定のバインドと、それがバインドされている基になる音声認識インスタンスを表す汎用一意識別子 (UUID) です。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SessionEventArgs::SessionIdを使用します。
SpeechServiceConnection_UserDefinedQueryParameters ユーザーによって提供されるクエリ パラメーター。 これらは、URL クエリ パラメーターとしてサービスに渡されます。 バージョン 1.5.0 で追加されました。
SpeechServiceConnection_RecoBackend 音声認識に使用するバックエンドを指定する文字列。許可されているオプションはオンラインとオフラインです。 通常の状況では、このプロパティを直接使用しないでください。 現在、オフライン オプションは EmbeddedSpeechConfig が使用されている場合にのみ有効です。 バージョン 1.19.0 で追加されました。
SpeechServiceConnection_RecoModelName 音声認識に使用するモデルの名前。 通常の状況では、このプロパティを直接使用しないでください。 現在、これは EmbeddedSpeechConfig が使用されている場合にのみ有効です。 バージョン 1.19.0 で追加されました。
SpeechServiceConnection_RecoModelKey このプロパティは非推奨です。
SpeechServiceConnection_RecoModelIniFile 音声認識に使用するモデルの ini ファイルへのパス。 通常の状況では、このプロパティを直接使用しないでください。 現在、これは EmbeddedSpeechConfig が使用されている場合にのみ有効です。 バージョン 1.19.0 で追加されました。
SpeechServiceConnection_SynthLanguage 合成する音声言語 (en-USなど) がバージョン 1.4.0 で追加されました。
SpeechServiceConnection_SynthVoice 音声合成に使用する TTS 音声の名前。バージョン 1.4.0 で追加されました。
SpeechServiceConnection_SynthOutputFormat バージョン 1.4.0 で追加された TTS 出力オーディオ形式を指定する文字列。
SpeechServiceConnection_SynthEnableCompressedAudioTransmission 音声合成オーディオ伝送に圧縮オーディオ形式を使用するかどうかを示します。 このプロパティは、SpeechServiceConnection_SynthOutputFormatが pcm 形式に設定されている場合にのみ影響します。 このプロパティが設定されておらず、GStreamer が使用可能な場合、SDK は合成オーディオ転送に圧縮形式を使用し、デコードします。 このプロパティを "false" に設定すると、ネットワーク上の伝送に生の pcm 形式を使用できます。 バージョン 1.16.0 で追加されました。
SpeechServiceConnection_SynthBackend TTS バックエンドを指定する文字列。有効なオプションはオンラインとオフラインです。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、EmbeddedSpeechConfig::FromPath または EmbeddedSpeechConfig::FromPaths を使用して、合成バックエンドをオフラインに設定します。 バージョン 1.19.0 で追加されました。
SpeechServiceConnection_SynthOfflineDataPath オフライン合成エンジンのデータ ファイル パス。は、合成バックエンドがオフラインの場合にのみ有効です。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、EmbeddedSpeechConfig::FromPath または EmbeddedSpeechConfig::FromPathsを使用します。 バージョン 1.19.0 で追加されました。
SpeechServiceConnection_SynthOfflineVoice 音声合成に使用するオフライン TTS 音声の名前 通常の状況では、このプロパティを直接使用しないでください。 代わりに、EmbeddedSpeechConfig::SetSpeechSynthesisVoiceEmbeddedSpeechConfig::GetSpeechSynthesisVoiceNameを使用します。 バージョン 1.19.0 で追加されました。
SpeechServiceConnection_SynthModelKey このプロパティは非推奨です。
SpeechServiceConnection_VoicesListEndpoint Cognitive Services Speech Service 音声リスト API エンドポイント (URL)。 通常の状況では、このプロパティを指定する必要はありません。SDK は、SpeechConfigのリージョン/ホスト/エンドポイントに基づいてこのプロパティを構築します。 バージョン 1.16.0 で追加されました。
SpeechServiceConnection_InitialSilenceTimeoutMs サービスによって使用される初期無音タイムアウト値 (ミリ秒)。 バージョン 1.5.0 で追加されました。
SpeechServiceConnection_EndSilenceTimeoutMs このプロパティは非推奨です。 サイレンスタイムアウトに関する最新情報については、 https://aka.ms/csspeech/timeoutsをご覧ください。
SpeechServiceConnection_EnableAudioLogging サービスでオーディオ ログを有効にするかどうかを指定するブール値。 オーディオ ログとコンテンツ ログは、Microsoft が所有するストレージ、または Cognitive Services サブスクリプションにリンクされた独自のストレージ アカウント (BYOS (Bring Your Own Storage) 対応 Speech リソース) に格納されます。 バージョン 1.5.0 で追加されました。
SpeechServiceConnection_LanguageIdMode Speech Service 接続言語識別子モード。 "AtStart" (既定値) または "Continuous" を指定できます。 言語識別 ドキュメント 参照してください。 1.25.0 で追加されました。
SpeechServiceConnection_TranslationCategoryId Speech Service 接続の翻訳 categoryId。
SpeechServiceConnection_AutoDetectSourceLanguages バージョン 1.8.0 で追加された自動検出ソース言語。
SpeechServiceConnection_AutoDetectSourceLanguageResult ソース言語の自動検出の結果がバージョン 1.8.0 で追加されました。
SpeechServiceResponse_RequestDetailedResultTrueFalse 要求された Cognitive Services Speech Service 応答出力形式 (単純または詳細)。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、SpeechConfig::SetOutputFormatを使用します。
SpeechServiceResponse_RequestProfanityFilterTrueFalse 要求された Cognitive Services Speech Service 応答出力の不適切なレベル。 現在使用されていません。
SpeechServiceResponse_ProfanityOption 要求された Cognitive Services Speech Service 応答出力の不適切な設定。 使用できる値は、"masked"、"removed"、および "raw" です。 バージョン 1.5.0 で追加されました。
SpeechServiceResponse_PostProcessingOption サービスで使用する後処理オプションを指定する文字列値。 バージョン 1.5.0 で追加されました。
SpeechServiceResponse_RequestWordLevelTimestamps 応答結果に単語レベルのタイムスタンプを含めるかどうかを指定するブール値。 バージョン 1.5.0 で追加されました。
SpeechServiceResponse_StablePartialResultThreshold 単語が部分的な結果に含まれている必要がある回数を返します。 バージョン 1.5.0 で追加されました。
SpeechServiceResponse_OutputFormatOption 応答結果の出力形式オプションを指定する文字列値。 内部使用のみ。 バージョン 1.5.0 で追加されました。
SpeechServiceResponse_RequestSnr 応答結果に SNR (信号対ノイズ比) を含めるかどうかを指定するブール値。 バージョン 1.18.0 で追加されました。
SpeechServiceResponse_TranslationRequestStablePartialResult 末尾の単語を省略して翻訳の部分的な結果を安定させるために要求するブール値。 バージョン 1.5.0 で追加されました。
SpeechServiceResponse_RequestWordBoundary WordBoundary イベントを要求するかどうかを指定するブール値。 バージョン 1.21.0 で追加されました。
SpeechServiceResponse_RequestPunctuationBoundary WordBoundary イベントで句読点の境界を要求するかどうかを指定するブール値。 既定値は true です。 バージョン 1.21.0 で追加されました。
SpeechServiceResponse_RequestSentenceBoundary WordBoundary イベントで文の境界を要求するかどうかを指定するブール値。 既定値は false です。 バージョン 1.21.0 で追加されました。
SpeechServiceResponse_SynthesisEventsSyncToAudio SDK で合成メタデータ イベント (単語の境界、口形素など) をオーディオ再生に同期させるかどうかを指定するブール値。 これは、オーディオが SDK を介して再生された場合にのみ有効になります。 既定値は true です。 false に設定すると、SDK はサービスからのイベントを起動します。これは、オーディオ再生と同期していない可能性があります。 バージョン 1.31.0 で追加されました。
SpeechServiceResponse_JsonResult Cognitive Services Speech Service 応答出力 (JSON 形式)。 このプロパティは、認識結果オブジェクトでのみ使用できます。
SpeechServiceResponse_JsonErrorDetails Cognitive Services Speech Service エラーの詳細 (JSON 形式)。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、CancellationDetails::ErrorDetailsを使用します。
SpeechServiceResponse_RecognitionLatencyMs 認識の待機時間 (ミリ秒単位)。 読み取り専用で、最終音声・翻訳結果で閲覧可能。 これにより、SDK によってオーディオ入力が受信されてから、サービスから最終的な結果が受信された時点までの待機時間が測定されます。 SDK は、最終的な結果に寄与するオーディオ入力からの最後のオーディオ フラグメントと、音声サービスから最終的な結果を受信した時刻の時間差を計算します。 バージョン 1.3.0 で追加されました。
SpeechServiceResponse_RecognitionBackend 認識バックエンド。 読み取り専用。音声認識の結果で使用できます。 これは、結果を生成するためにクラウド (オンライン) または埋め込み (オフライン) 認識が使用されたかどうかを示します。
SpeechServiceResponse_RequestId この認識のための音声サービスからのリクエストIDです。 これはリクエストの一意識別子です。 読み取り専用で、最終音声・翻訳認識結果で利用可能です。
SpeechServiceResponse_SynthesisFirstByteLatencyMs 音声合成の最初のバイト待機時間 (ミリ秒)。 読み取り専用。最終的な音声合成結果で使用できます。 これにより、合成の処理が開始されてから、最初のバイト オーディオが使用可能になった時点までの待機時間が測定されます。 バージョン 1.17.0 で追加されました。
SpeechServiceResponse_SynthesisFinishLatencyMs 音声合成のすべてのバイト待機時間 (ミリ秒単位)。 読み取り専用。最終的な音声合成結果で使用できます。 これにより、合成の処理が開始されてから、オーディオ全体が合成された時点までの待機時間が測定されます。 バージョン 1.17.0 で追加されました。
SpeechServiceResponse_SynthesisUnderrunTimeMs 音声合成のアンダーラン時間 (ミリ秒単位)。 読み取り専用。SynthesisCompleted イベントの結果で使用できます。 これは、PropertyId::AudioConfig_PlaybackBufferLengthInMs が合成完了までの合計アンダーラン時間を測定します。 バージョン 1.17.0 で追加されました。
SpeechServiceResponse_SynthesisConnectionLatencyMs 音声合成接続の待機時間 (ミリ秒単位)。 読み取り専用。最終的な音声合成結果で使用できます。 これにより、合成の処理が開始されてから、HTTP/WebSocket 接続が確立された時点までの待機時間が測定されます。 バージョン 1.26.0 で追加されました。
SpeechServiceResponse_SynthesisNetworkLatencyMs 音声合成ネットワークの待機時間 (ミリ秒単位)。 読み取り専用。最終的な音声合成結果で使用できます。 これにより、ネットワークのラウンド トリップ時間が測定されます。 バージョン 1.26.0 で追加されました。
SpeechServiceResponse_SynthesisServiceLatencyMs 音声合成サービスの待機時間 (ミリ秒単位)。 読み取り専用。最終的な音声合成結果で使用できます。 これにより、サービスの処理時間が測定され、オーディオの最初のバイトが合成されます。 バージョン 1.26.0 で追加されました。
SpeechServiceResponse_SynthesisBackend 合成が完了したバックエンドを示します。 読み取り専用。音声合成の結果で使用できます。ただし、SynthesisStarted イベントの結果はバージョン 1.17.0 で追加されました。
SpeechServiceResponse_DiarizeIntermediateResults 中間結果に話者識別が含まれているかどうかを判断します。
CancellationDetails_Reason 取り消しの理由。 現在使用されていません。
CancellationDetails_ReasonText 取り消しテキスト。 現在使用されていません。
CancellationDetails_ReasonDetailedText 取り消しの詳細なテキスト。 現在使用されていません。
AudioConfig_DeviceNameForCapture オーディオ キャプチャのデバイス名。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、AudioConfig::FromMicrophoneInput を使用します。 注: このプロパティ ID はバージョン 1.3.0 で追加されました。
AudioConfig_NumberOfChannelsForCapture オーディオ キャプチャのチャネルの数。 内部使用のみ。 注: このプロパティ ID はバージョン 1.3.0 で追加されました。
AudioConfig_SampleRateForCapture オーディオ キャプチャのサンプル レート (Hz 単位)。 内部使用のみ。 注: このプロパティ ID はバージョン 1.3.0 で追加されました。
AudioConfig_BitsPerSampleForCapture オーディオ キャプチャの各サンプルのビット数。 内部使用のみ。 注: このプロパティ ID はバージョン 1.3.0 で追加されました。
AudioConfig_AudioSource オーディオ ソース。 使用できる値は、"Microphones"、"File"、および "Stream" です。 バージョン 1.3.0 で追加されました。
AudioConfig_DeviceNameForRender オーディオ レンダリングのデバイス名。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、AudioConfig::FromSpeakerOutput を使用します。 バージョン 1.14.0 で追加されました。
AudioConfig_PlaybackBufferLengthInMs 再生バッファーの長さ (ミリ秒)、既定値は 50 ミリ秒です。
AudioConfig_AudioProcessingOptions JSON 形式のオーディオ処理オプション。
Speech_LogFilename ログを書き込むファイル名。 バージョン 1.4.0 で追加されました。
Speech_SegmentationSilenceTimeoutMs 検出された無音の継続時間 (ミリ秒単位)。 その後、音声テキスト変換によって音声フレーズが終了したと判断され、最終的な認識結果が生成されます。 このタイムアウトを構成すると、音声入力が通常よりも大幅に高速または低速になり、既定のセグメント化動作によって一貫して長すぎる、または短すぎる結果が得られる場合に役立ちます。 不適切に高い値または低いセグメント化タイムアウト値は、音声テキスト変換の精度に悪影響を与える可能性があります。このプロパティは慎重に構成する必要があり、結果の動作は意図したとおりに徹底的に検証する必要があります。 値は 、[100, 5000] ミリ秒の範囲内である必要があります。
Speech_SegmentationMaximumTimeMs "時間" セグメント化戦略を使用する場合の話し言葉の最大長。 この設定を使用するには、Speech_SegmentationSilenceTimeoutMs の値を設定する必要があります。 音声フレーズの長さがこの値に近づくと、フレーズの無音タイムアウトに達するか、フレーズが最大長に達するまで、Speech_SegmentationSilenceTimeoutMsが減少し始めます。 値は 、[20000, 70000] ミリ秒の範囲内である必要があります。
Speech_SegmentationStrategy 音声フレーズがいつ終了し、最終的な認識結果を生成するかを決定するために使用される戦略。 使用できる値は、"Default"、"Time"、および "Semantic" です。
Speech_StartEventSensitivity 音声活動を検出した後、システムが潜在的な音声開始をどれだけ速く通知するかを制御します。 この設定は、基礎となる音声活動検出アルゴリズムを変更しません。 SpeechStartDetectedイベントを発生させるタイミング基準のみを調整します。
Conversation_ApplicationId バックエンド サービスへの接続に使用される識別子。 バージョン 1.5.0 で追加されました。
Conversation_DialogType 接続するダイアログ バックエンドの種類。 バージョン 1.7.0 で追加されました。
Conversation_Initial_Silence_Timeout リッスンの無音タイムアウト バージョン 1.5.0 で追加されました。
Conversation_From_Id 音声認識アクティビティで使用する ID から、バージョン 1.5.0 で追加されました。
Conversation_Conversation_Id セッションの ConversationId。 バージョン 1.8.0 で追加されました。
Conversation_Custom_Voice_Deployment_Ids カスタム音声展開 ID のコンマ区切りの一覧。 バージョン 1.8.0 で追加されました。
Conversation_Speech_Activity_Template 音声アクティビティ テンプレート。サービスによって生成された音声アクティビティのテンプレート内のプロパティにスタンプを付けます。 バージョン 1.10.0 で追加されました。
Conversation_ParticipantId 現在の会話の参加者識別子。 バージョン 1.13.0 で追加されました。
Conversation_Request_Bot_Status_Messages
Conversation_Connection_Id
DataBuffer_TimeStamp Pull/Push オーディオ入力ストリームを使用する場合にクライアントによって書き込まれるデータ バッファーに関連付けられたタイム スタンプ。 タイムスタンプは、解像度が 90 kHz の 64 ビット値です。 これは、MPEG トランスポート ストリームのプレゼンテーション タイムスタンプと同じです。 バージョン 1.5.0 で追加された https://en.wikipedia.org/wiki/Presentation_timestamp を参照してください。
DataBuffer_UserId Pull/Push オーディオ入力ストリームを使用するときにクライアントによって書き込まれるデータ バッファーに関連付けられているユーザー ID。 バージョン 1.5.0 で追加されました。
PronunciationAssessment_ReferenceText 発音評価用のオーディオの参照テキスト。 これと次の発音評価パラメーターについては、発音評価パラメーター 表を参照してください。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、PronunciationAssessmentConfig::Create または PronunciationAssessmentConfig::SetReferenceTextを使用します。 バージョン 1.14.0 で追加されました。
PronunciationAssessment_GradingSystem 発音スコア調整のポイント システム (FivePoint または HundredMark)。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、PronunciationAssessmentConfig::Createを使用します。 バージョン 1.14.0 で追加されました。
PronunciationAssessment_Granularity 発音評価の粒度 (Phoneme、Word、または FullText)。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、PronunciationAssessmentConfig::Createを使用します。 バージョン 1.14.0 で追加されました。
PronunciationAssessment_EnableMiscue その他の計算を有効にするかどうかを定義します。 これを有効にすると、発音された単語が参照テキストと比較され、比較に基づいて省略/挿入でマークされます。 既定の設定は False です。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、PronunciationAssessmentConfig::Createを使用します。 バージョン 1.14.0 で追加されました。
PronunciationAssessment_PhonemeAlphabet 発音評価音素アルファベット。 有効な値は "SAPI" (既定値) と "IPA" です。通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、PronunciationAssessmentConfig::SetPhonemeAlphabetを使用します。 バージョン 1.20.0 で追加されました。
PronunciationAssessment_NBestPhonemeCount 発音評価 nbest 音素数。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、PronunciationAssessmentConfig::SetNBestPhonemeCountを使用します。 バージョン 1.20.0 で追加されました。
PronunciationAssessment_EnableProsodyAssessment プロソディ評価を有効にするかどうかを指定します。 通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、PronunciationAssessmentConfig::EnableProsodyAssessmentを使用します。 バージョン 1.33.0 で追加されました。
PronunciationAssessment_Json 発音評価パラメーターの json 文字列通常の状況では、このプロパティを直接使用する必要はありません。 代わりに、PronunciationAssessmentConfig::Createを使用します。 バージョン 1.14.0 で追加されました。
PronunciationAssessment_Params 発音評価パラメーター。 このプロパティは読み取り専用です。 SDK では内部的に使用されています。 バージョン 1.14.0 で追加されました。
SpeechTranslation_ModelName 音声翻訳に使用するモデルの名前。 このプロパティを直接使用しないでください。 現在、これは EmbeddedSpeechConfig が使用されている場合にのみ有効です。
SpeechTranslation_ModelKey このプロパティは非推奨です。
KeywordRecognition_ModelName キーワード認識に使用するモデルの名前。 このプロパティを直接使用しないでください。 現在、これは EmbeddedSpeechConfig が使用されている場合にのみ有効です。
KeywordRecognition_ModelKey このプロパティは非推奨です。
EmbeddedSpeech_EnablePerformanceMetrics 埋め込み音声を使用するデバイスの機能を評価するために使用できる埋め込み音声パフォーマンス メトリックの収集を有効にします。 収集されたデータは、音声認識などの特定のシナリオの結果に含まれます。 既定の設定は "false" です。 すべての埋め込み音声シナリオからメトリックを使用できない場合があることに注意してください。
SpeechSynthesisRequest_Pitch 合成された音声のピッチ。
SpeechSynthesisRequest_Rate 合成された音声の速度。
SpeechSynthesisRequest_Volume 合成された音声の音量。
SpeechSynthesisRequest_Style 合成された音声のスタイル。
SpeechSynthesisRequest_Temperature 合成された音声の温度。 温度パラメーターは、音声が HD 音声の場合にのみ有効になります。
SpeechSynthesisRequest_CustomLexiconUrl 合成された音声のカスタム辞書 URL。 これにより、合成中に使用されるカスタム発音辞書へのURLが提供されます。
SpeechSynthesisRequest_PreferLocales 合成された音声の優先ロケール。 ロケール名を優先順にカンマで区切ったリスト。
SpeechSynthesis_FrameTimeoutInterval 合成された音声オーディオ フレーム間のタイムアウト間隔 (ミリ秒)。 この値が 10 秒を超える場合は、ハード フレーム タイムアウトとして使用されます。 a) 最新のフレームがこのタイムアウト間隔を超え、Real-Time Factor (RTF) がその最大値を超えた場合、または b) 最新のフレームがハード フレームタイムアウトを超えた後に経過した時間を超えた場合、音声合成タイムアウトが発生します。
SpeechSynthesis_RtfTimeoutThreshold 音声合成の最大 Real-Time 係数 (RTF)。 RTF は RTF = f(d)/d として計算されます。ここで f(d) は、継続時間 d の音声オーディオを合成するためにかかった時間です。

音声プロパティ ID を定義します。 バージョン 1.4.0 で変更されました。

列挙型 OutputFormat

価値観 説明
簡単
詳しい

出力形式。

列挙型 ProfanityOption

価値観 説明
マスク 不適切な単語の文字をスター文字に置き換えます。
削除 不適切な単語を削除します。
不適切な言葉には何もしません。

不適切な表現 (悪口) を削除するか、不適切な単語の文字を星に置き換えます。 バージョン 1.5.0 で追加されました。

列挙型 ResultReason

価値観 説明
ノーマッチ 音声を認識できなかったことを示します。 詳細については、NoMatchDetails オブジェクトを参照してください。
キャンセル 認識が取り消されたことを示します。 詳細については、CancellationDetails オブジェクトを使用して確認できます。
認識する音声 音声結果に仮説テキストが含まれていることを示します。
認識された音声 音声結果に、認識された最終的なテキストが含まれていることを示します。 これで、この語句に対する音声認識が完了しました。
認識インテント この結果は廃止され、使われていません。
認識された意図 この結果は廃止され、使われていません。
翻訳音声 翻訳結果に仮説テキストとその翻訳が含まれていることを示します。
翻訳音声 翻訳結果に最終的なテキストと対応する翻訳が含まれていることを示します。 これで、音声認識と翻訳がこのフレーズに対して完了しました。
オーディオの合成 合成されたオーディオ結果に、0 以外の量のオーディオ データが含まれていることを示します。
合成AudioCompleted 合成されたオーディオがこのフレーズに対して完了したことを示します。
認識キーワード 音声結果に (未確認の) キーワード テキストが含まれていることを示します。 バージョン 1.3.0 で追加されました。
認識されたキーワード 指定されたキーワードの認識が完了したことを示します。 バージョン 1.3.0 で追加されました。
合成AudioStarted 音声合成がバージョン 1.4.0 で追加され開始されたことを示します。
ParticipantSpeechを翻訳しています 文字起こし結果に、会話内の他の参加者の仮説テキストとその翻訳が含まれていることを示します。 バージョン 1.8.0 で追加されました。
翻訳された参加者のスピーチ 文字起こしの結果に、会話の他の参加者の最終的なテキストと対応する翻訳が含まれていることを示します。 これで、音声認識と翻訳がこのフレーズに対して完了しました。 バージョン 1.8.0 で追加されました。
翻訳インスタントメッセージ 文字起こしの結果にインスタント メッセージと対応する翻訳が含まれていることを示します。 バージョン 1.8.0 で追加されました。
翻訳された参加者インスタントメッセージ 文字起こしの結果に、会話内の他の参加者と対応する翻訳のインスタント メッセージが含まれていることを示します。 バージョン 1.8.0 で追加されました。
登録中VoiceProfile この結果は廃止され、使われていません。
登録済み音声プロファイル この結果は廃止され、使われていません。
認識されたスピーカー この結果は廃止され、使われていません。
認識されたスピーカー この結果は廃止され、使われていません。
リセットボイスプロファイル この結果は廃止され、使われていません。
削除済み音声プロファイル この結果は廃止され、使われていません。
VoicesList取得済み 音声リストが正常に取得されたことを示します。 バージョン 1.16.0 で追加されました。

認識結果が生成される可能性のある理由を指定します。

列挙型 CancellationReason

価値観 説明
エラー 音声認識中にエラーが発生したことを示します。
エンドオブストリーム オーディオ ストリームの末尾に達したことを示します。
CancelledByUser(キャンセルバイユーザー) 要求がユーザーによって取り消されたことを示します。 バージョン 1.14.0 で追加されました。

認識結果が取り消される可能性がある理由を定義します。

列挙型 CancellationErrorCode

価値観 説明
エラーなし エラーなし。 CancellationReason が EndOfStream の場合、CancellationErrorCode は NoError に設定されます。
認証失敗 認証エラーを示します。 サブスクリプション キーまたは承認トークンが無効であるか、有効期限が切れているか、使用されているリージョンと一致しない場合、認証エラーが発生します。
不正なリクエスト 1 つ以上の認識パラメーターが無効であるか、オーディオ形式がサポートされていないことを示します。
リクエストが多すぎます 並列要求の数が、サブスクリプションで許可されている同時文字起こしの数を超えたことを示します。
禁じられた 要求によって使用される無料のサブスクリプションがクォータを使い果たしたことを示します。
接続障害 接続エラーを示します。
サービスタイムアウト サービスからの応答を待機中にタイムアウト エラーが発生したことを示します。
サービスエラー サービスによってエラーが返されることを示します。
サービス利用不可 サービスが現在使用できないことを示します。
ランタイムエラー 予期しないランタイム エラーを示します。
サービスリダイレクトテンポラリー Speech Service が別のエンドポイントへの再接続を一時的に要求することを示します。
サービスリダイレクトパーマネント Speech Service が別のエンドポイントへの再接続を永続的に要求することを示します。
EmbeddedModelError さん 埋め込み音声 (SR または TTS) モデルが使用できないか破損していることが示されます。

CancellationReason が Error の場合のエラー コードを定義します。 バージョン 1.1.0 で追加されました。

列挙型 NoMatchReason

価値観 説明
認識されていない 音声が検出されたが認識されなかったことを示します。
イニシャル・サイレンス・タイムアウト オーディオ ストリームの開始に無音のみが含まれており、サービスが音声を待機してタイムアウトしたことを示します。
イニシャルバブルタイムアウト オーディオ ストリームの開始にノイズのみが含まれており、サービスが音声を待機してタイムアウトしたことを示します。
KeywordNotRecognized (キーワード認識されていません) スポットされたキーワードがキーワード検証サービスによって拒否されたことを示します。 バージョン 1.5.0 で追加されました。
エンドサイレンスタイムアウト オーディオ ストリームに、最後に認識された語句の後に無音のみが含まれていることを示します。

認識結果が認識されない可能性がある理由を定義します。

列挙型 ActivityJSONType

価値観 説明
ヌル
オブジェクト
配列
UIntの
整数
ブール値

アクティビティの json 値に使用できる型を定義します。 バージョン 1.5.0 で追加されました。

列挙型 SpeechSynthesisOutputFormat

価値観 説明
Raw8Khz8BitMonoMULaw RAW-8KHZ-8ビット-モノ-MULAW
Riff16Khz16Kbpsモノサイレン riff-16khz-16kbps-mono-siren サービスでサポートされていません。 この値は使用しないでください。
オーディオ16Khz16Kbpsモノサイレン audio-16khz-16kbps-mono-siren サービスでサポートされていません。 この値は使用しないでください。
オーディオ16Khz32KビットレートモノMp3 オーディオ-16kHz-32kビットレート-モノラル-mp3
オーディオ16Khz128KBitRateMonoMp3 オーディオ-16khz-128kビットレート-モノラル-MP3
オーディオ16Khz64KBitRateモノMp3 オーディオ-16khz-64kbitrate-モノラル-mp3
オーディオ24Khz48KBitRateMonoMp3 オーディオ-24kHz-48kbitrate-モノラル-mp3
オーディオ24Khz96KBitRateMonoMp3 オーディオ-24kHz-96kbitrate-モノラル-mp3
オーディオ24Khz160KBitRateMonoMp3 オーディオ-24kHz-160kビットレート-モノラル-mp3
Raw16Khz16ビットMonoTrueSilk RAW-16kHz-16ビット-モノ-TrueSilk
Riff16Khz16ビットモノPCM RIFF-16KHz-16ビット-モノPCM
Riff8Khz16ビットモノPCM リフ形式の音声ファイル - 8kHz、16ビット、モノラル、PCM
Riff24Khz16ビットモノPCM RIFF-24KHz-16ビット-モノ-PCM
Riff8Khz8BitMonoMULaw RIFF-8KHZ-8ビット-モノ-MULAW
Raw16Khz16ビットMonoPcm RAW-16KHz-16ビット-モノPCM
Raw24Khz16ビットモノPCM RAW-24KHZ-16ビットモノPCM
Raw8Khz16ビットモノPCM RAW-8KHZ-16ビットモノPCM
Ogg16Khz16BitMonoOpus (英語) OGG-16KHz-16ビットモノオーパス
Ogg24Khz16Bitモノオーパス OGG-24KHz-16ビットモノオーパス
Raw48Khz16ビットモノPCM RAW-48KHZ-16ビット-モノ-PCM
Riff48Khz16ビットMonoPcm RIFF-48KHz-16ビット-モノ-PCM
オーディオ48Khz96KBitRateモノMp3 オーディオ-48khz-96kbitrate-mono-mp3
オーディオ48Khz192KBitRateMonoMp3 オーディオ-48キロヘルツ-192キロビットレート-モノラル-MP3
Ogg48Khz16BitMonoOpus (英語) ogg-48khz-16bit-mono-opus バージョン 1.16.0 で追加
Webm16Khz16BitMonoOpus (英語) webm-16khz-16bit-mono-opus バージョン 1.16.0 で追加
Webm24Khz16BitMonoOpus (英語) webm-24khz-16bit-mono-opus バージョン 1.16.0 で追加
Raw24Khz16ビットMonoTrueSilk raw-24khz-16bit-mono-truesilk バージョン 1.17.0 で追加
Raw8Khz8BitMonoALawの raw-8khz-8bit-mono-alaw バージョン 1.17.0 で追加
Riff8Khz8BitMonoALawの riff-8khz-8bit-mono-alaw バージョン 1.17.0 で追加
Webm24Khz16Bit24Kbpsモノオプス WebM コンテナー内の OPUS コーデックによって圧縮された webm-24khz-16bit-24kbps-mono-opus Audio。ビットレートは 24 kbps で、IoT シナリオ用に最適化されています。 (1.19.0 で追加)
オーディオ16Khz16Bit32KbpsMonoOpus audio-16khz-16bit-32kbps-mono-opus OPUSコーデックによって圧縮されたオーディオ、コンテナなし、ビットレートは32kbpsです。 (1.20.0 で追加)
Audio24Khz16Bit48Kbpsモノオーパス audio-24khz-16bit-48kbps-mono-opus OPUSコーデックによって圧縮されたオーディオ、コンテナなし、ビットレートは48kbps。 (1.20.0 で追加)
Audio24Khz16Bit24Kbpsモノオプス audio-24khz-16bit-24kbps-mono-opus オーディオは、コンテナなしでOPUSコーデックによって圧縮され、ビットレートは24kbpsです。 (1.20.0 で追加)
Raw22050Hz16ビットモノPCM raw-22050hz-16bit-mono-pcm Raw PCM audio at 22050Hz サンプリング レートおよび 16 ビット深度。 (1.22.0 で追加)
Riff22050Hz16ビットモノPCM riff-22050hz-16bit-mono-pcm PCM オーディオ (22050Hz サンプリング レートと 16 ビット深度、RIFF ヘッダー付き)。 (1.22.0 で追加)
Raw44100Hz16ビットモノPCM raw-44100hz-16bit-mono-pcm Raw PCM audio at 44100Hz サンプリング レートおよび 16 ビット深度。 (1.22.0 で追加)
Riff44100Hz16ビットモノPCM riff-44100hz-16bit-mono-pcm PCM オーディオ (44100Hz サンプリング レート、16 ビット深度、RIFF ヘッダー付き)。 (1.22.0 で追加)
AmrWb16000ヘルツ amr-wb-16000hz AMR-WB オーディオ (16kHz サンプリング レート)。 (1.24.0 で追加)
G72216Khz64Kbpsの g722-16khz-64kbps G.722 オーディオ (16kHz サンプリング レートおよび 64 kbps ビットレート)。 (1.38.0 で追加)

可能な音声合成出力オーディオ形式を定義します。 バージョン 1.19.0 で更新されました。

enum ストリームステータス

価値観 説明
不明 オーディオ データ ストリームの状態が不明です。
データなし オーディオ データ ストリームにデータが含まれています。
パーシャルデータ オーディオ データ ストリームには、読み上げ要求の部分的なデータが含まれています。
オールデータ オーディオ データ ストリームには、読み上げ要求のすべてのデータが含まれます。
キャンセル オーディオ データ ストリームが取り消されました。

オーディオ データ ストリームの使用可能な状態を定義します。 バージョン 1.4.0 で追加されました。

列挙型 ServicePropertyChannel

価値観 説明
UriQueryパラメータ URI クエリ パラメーターを使用して、プロパティ設定をサービスに渡します。
Httpヘッダー HttpHeader を使用して HTTP ヘッダーにキー/値を設定します。

プロパティ設定をサービスに渡すために使用されるチャネルを定義します。 バージョン 1.5.0 で追加されました。

列挙型 RecognitionFactorScope

価値観 説明
パーシャルフレーズ 認識係数は、個々の部分フレーズとして参照できる文法に適用されます。

認識係数を適用するスコープを定義します。

enum 発音評価グレーディングシステム

価値観 説明
ファイブポイント 5 点校正。
ハンドレッドマーク 100 のマーク。

発音スコア調整のポイント システムを定義します。既定値は FivePoint です。 バージョン 1.14.0 で追加されました。

enum PronunciationAssessment粒度

価値観 説明
音素 フルテキスト、単語、音素レベルのスコアを表示します。
言葉 フルテキストレベルとワードレベルのスコアを表示します。
フルテキスト フルテキスト レベルでのみスコアを表示します。

発音評価の粒度を定義します。既定値は Phoneme です。 バージョン 1.14.0 で追加されました。

列挙型 SynthesisVoiceType

価値観 説明
オンラインニューラル オンライン ニューラル音声。
オンラインスタンダード オンライン標準音声。
オフラインニューラル オフライン ニューラル音声。
オフラインスタンダード オフラインの標準音声。

バージョン 1.16.0 で追加された合成音声の種類を定義します。

列挙型 SynthesisVoiceGender

価値観 説明
不明 性別不明。
女性 女性の声。
男性 男声。
ニュートラル ニュートラル音声。

バージョン 1.17.0 で追加された合成音声の性別を定義します。

列挙型 SynthesisVoiceStatus

価値観 説明
不明 音声の状態が不明です。
一般提供 音声は一般提供されています。
プレビュー 音声はプレビュー段階です。
推奨されない 音声は非推奨です。使用しないでください。

合成音声の状態を定義します。

列挙型 SpeechSynthesisBoundaryType

価値観 説明
言葉 単語の境界。
句読点 句読点の境界。
文の境界。

バージョン 1.21.0 で追加された音声合成境界イベントの境界の種類を定義します。

列挙型セグメンテーション戦略

価値観 説明
デフォルト Speech Service によって決定される既定の戦略と設定を使用します。 ほとんどの状況で使用します。
時間 最終的な結果を生成するタイミングを決定するために音声間の無音の量を使用する時間ベースの戦略を使用します。
セマンティック AI モデルを使用して、フレーズの内容に基づいて音声フレーズの末尾を抑制します。

音声フレーズがいつ終了し、最終的な認識結果を生成するかを決定するために使用される戦略。 使用できる値は、"Default"、"Time"、および "Semantic" です。