日日是Oracle APEX: OpenAIのText to speech APIを呼び出して写真の説明を読み上げる

2024年1月29日月曜日

OpenAIのText to speech APIを呼び出して写真の説明を読み上げる

前回の記事「写真の動物の説明をOpenAI GPT-4 Turbo with visionにしてもらう」で作成したAPEXアプリケーションでは、写真の説明を文章として表示していました。この文章を、OpenAIのText to speech APIを呼び出して、音声に変換して読み上げるようにします。

作成したアプリケーションは以下のように動作します。

ORDSのREST APIにテンプレートとしてanimal-speechを作成し、POSTハンドラに以下のコードを記述します。パッケージUTL_OPENAI_VISIONに、OpenAIのspeechエンドポイントを呼び出すプロシージャとしてSPEECHを追加し、それをコード中で呼び出しています。

APEXアプリケーションのアプリケーション定義の置換文字列G_REQUEST_URLを、新しく作成した音声を返すRESTサービスの完全なURLに置き換えます。

リージョンResponseに音声要素を埋め込みます。

ソースのHTMLコードに以下を記述します。

<audio controls id="my-audio"></audio>

写真の選択を変更したときに、応答の文章であるページ・アイテムP1_RESPONSEをクリアする代わりに、音声要素を非表示にします。

TRUEアクションのクリアを非表示に変更し、影響を受ける要素の選択タイプにJavaScript式を選択し、JavaScript式として以下を記述します。

document.getElementById("my-audio")

選択タイプにjQueryセレクタを選択し、jQueryセレクタとして#my-audioを指定することもできます。

ボタンSUBMIT（ラベルは問い合わせる）を押した時に、音声要素を表示するTRUEアクションを追加します。

TRUEアクションは表示、影響を受ける要素は先ほどの非表示のアクションと同じです。ページが最初に表示されるときは音声要素は表示しないため、初期化時に実行はオフにします。

TRUEアクションのJavaScriptコードの実行の設定のコードを、以下に記述に変更します。macOSのChromeで実行するとelem.play()を呼び出した時点で再生が開始されますが、iPhoneのSafariでは、elem.play()では再生されないようです。再生ボタンをクリックする必要がありました。

影響を受ける要素の選択タイプを- 選択 -に戻し、無指定にします。