API


Распознавание речи

Асинхронное распознавание


Автоматизация распознавания речи с использованием передовых технологий.

Асинхронное распознавание, подходит для распознавания аудиозаписей и видеозаписей.

Основные действия:
1. Загрузите файл для распознавания по протоколу HTTP в наше хранилище.
2. Запустите задачу на распознавание: в запросе передайте имя загруженного файла и параметры распознавания. В ответе придет распознанный текст.

Код загрузки файла:

curl https://yazapishu.ru/api/upload.php \
--header "Authorization: <api_token>" \
-F "upload=@<file_name>"


где:
api_token - уникальный идентификатор пользователя. Выдается после регистрации. Используется для авторизации.
file_name - имя вашего файла для распознавания(может содержать путь к вашему файлу).


Код запуска распознавания:

curl https://yazapishu.ru/api.php \
--header "Authorization: <api_token>" \
--header "Content-Type: application/json" \
--data '{
"audio_name": "<file_name>",
"language": "<language_cod>"
}'


Список дополнительных параметров:
file_name - имя загруженного файла для распознавания(только имя вашего файла с расширением. Пример: audio1.mp3).
"language": "<language_cod>" - язык распознавания
"speaker": "-l" - разделить текст на говорящих(спикеров)
"timecod": "yes" - указать таймкоды в тексте
"json": "yes" - получить данные в формате JSON


Доступные языки распознавания:
Русский - ru, Английский - en , Английский – Британский - en_uk, Английский – Американский - en_us, Английский – Австралийский - en_au, Испанский - es , Итальянский - it , Китайский - zh , Корейский - ko , Немецкий - de , Нидерландский - nl , Польский - pl , Португальский - pt , Турецкий - tr , Французский - fr , Финский - fi , Японский - ja
Пример параметра: "language": "ru"



Получение данных в формате Json


Код запуска распознавания:


curl https://yazapishu.ru/api.php \
--header "Authorization: <api_token>" \
--header "Content-Type: application/json" \
--data '{
"audio_name": "<file_name>",
"language": "<language_cod>",
"json": "yes"
}'


Результаты содержат распознанный текст целиком, разделение текста по параметрам и список распознанных слов.

В ответ придут данные в формате JSON, где:


Key Type Description
text string Расшифровка аудиофайла.
words array Массив, содержащий информацию о каждом слове
utterances array Массив, содержащий высказывания спикеров
utterances[i].speaker string Высказывание определенного спикера
words[i].text string Текст i-го слова в расшифровке
words[i].start number Начало произнесения этого слова в аудиофайле в миллисекундах.
words[i].end number Конец произнесения этого слова в аудиофайле, в миллисекундах.
words[i].confidence number Оценка достоверности для расшифровки i-го слова
words[i].speaker string Если включена функция «Разделение говорящих», то говорящий, произнесший i-е слово
status string Статус распознавания: completed или error
audio_duration number Продолжительность аудио
id number Идентификатор текущего распознавания


Запрос выполненных распознаваний по ID:


curl https://yazapishu.ru/api/api_request.php \
--header "Authorization: <api_token>" \
--header "Content-Type: application/json" \
--data '{
"id": "<id>"
}'


Пример выполнения распознавания в командной оболочке SHELL:


audio='myspeech.mp3'

curl https://yazapishu.ru/api/upload.php \
--header "Authorization: 773fec3ac285bc7c9e9951ef7f7ddad8" \
-F "upload=@$audio"

text=$(curl https://yazapishu.ru/api.php \
--header "Authorization: 773fec3ac285bc7c9e9951ef7f7ddad8" \
--header "Content-Type: application/json" \
--data '{
"audio_name": "'$audio'",
"language": "ru",
"speaker": "-l",
"json": "yes"
}')


printf '%s\n' "$text"


Вы можете загрузить в систему аудио и видео файлы: mp3,wav,mp4,avi,aac,m4a, ac3,flac,ogg,wma,mov,flv,3gp,asf,wmv,mkv,webm.

Все результаты распознавания будут также доступны в вашем личном кабинете.

Вы можете запускать до 100 паралельныйх распознаваний.