Асинхронное распознавание
Автоматизация распознавания речи с использованием передовых технологий.
Асинхронное распознавание, подходит для распознавания аудиозаписей и видеозаписей.
Основные действия:
1. Загрузите файл для распознавания по протоколу HTTP в наше хранилище.
2. Запустите задачу на распознавание: в запросе передайте имя загруженного файла и параметры распознавания. В ответе придет распознанный текст.
Код загрузки файла:
curl https://yazapishu.ru/api/upload.php \
--header "Authorization: <api_token>" \
-F "upload=@<file_name>"
где:
api_token - уникальный идентификатор пользователя. Выдается после регистрации. Используется для авторизации.
file_name - имя вашего файла для распознавания(может содержать путь к вашему файлу).
Код запуска распознавания:
curl https://yazapishu.ru/api.php \
--header "Authorization: <api_token>" \
--header "Content-Type: application/json" \
--data '{
"audio_name": "<file_name>",
"language": "<language_cod>"
}'
Список дополнительных параметров:
file_name - имя загруженного файла для распознавания(только имя вашего файла с расширением. Пример: audio1.mp3).
"language": "<language_cod>" - язык распознавания
"speaker": "-l" - разделить текст на говорящих(спикеров)
"timecod": "yes" - указать таймкоды в тексте
"json": "yes" - получить данные в формате JSON
Доступные языки распознавания:
Русский - ru, Английский - en , Английский – Британский - en_uk, Английский – Американский - en_us, Английский – Австралийский - en_au, Испанский - es ,
Итальянский - it , Китайский - zh , Корейский - ko , Немецкий - de , Нидерландский - nl , Польский - pl , Португальский - pt , Турецкий - tr ,
Французский - fr , Финский - fi , Японский - ja
Пример параметра: "language": "ru"
Получение данных в формате Json
Код запуска распознавания:
curl https://yazapishu.ru/api.php \
--header "Authorization: <api_token>" \
--header "Content-Type: application/json" \
--data '{
"audio_name": "<file_name>",
"language": "<language_cod>",
"json": "yes"
}'
Результаты содержат распознанный текст целиком, разделение текста по параметрам и список распознанных слов.
В ответ придут данные в формате JSON, где:
Key | Type | Description |
---|---|---|
text | string | Расшифровка аудиофайла. |
words | array | Массив, содержащий информацию о каждом слове |
utterances | array | Массив, содержащий высказывания спикеров |
utterances[i].speaker | string | Высказывание определенного спикера |
words[i].text | string | Текст i-го слова в расшифровке |
words[i].start | number | Начало произнесения этого слова в аудиофайле в миллисекундах. |
words[i].end | number | Конец произнесения этого слова в аудиофайле, в миллисекундах. |
words[i].confidence | number | Оценка достоверности для расшифровки i-го слова |
words[i].speaker | string | Если включена функция «Разделение говорящих», то говорящий, произнесший i-е слово |
status | string | Статус распознавания: completed или error |
audio_duration | number | Продолжительность аудио |
id | number | Идентификатор текущего распознавания |
Запрос выполненных распознаваний по ID:
curl https://yazapishu.ru/api/api_request.php \
--header "Authorization: <api_token>" \
--header "Content-Type: application/json" \
--data '{
"id": "<id>"
}'
Пример выполнения распознавания в командной оболочке SHELL:
audio='myspeech.mp3'
curl https://yazapishu.ru/api/upload.php \
--header "Authorization: 773fec3ac285bc7c9e9951ef7f7ddad8" \
-F "upload=@$audio"
text=$(curl https://yazapishu.ru/api.php \
--header "Authorization: 773fec3ac285bc7c9e9951ef7f7ddad8" \
--header "Content-Type: application/json" \
--data '{
"audio_name": "'$audio'",
"language": "ru",
"speaker": "-l",
"json": "yes"
}')
printf '%s\n' "$text"
Вы можете загрузить в систему аудио и видео файлы: mp3,wav,mp4,avi,aac,m4a, ac3,flac,ogg,wma,mov,flv,3gp,asf,wmv,mkv,webm.
Все результаты распознавания будут также доступны в вашем личном кабинете.
Вы можете запускать до 100 паралельныйх распознаваний.