前言
10年積累的網(wǎng)站設計制作、成都做網(wǎng)站經(jīng)驗,可以快速應對客戶對網(wǎng)站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡服務。我雖然不認識你,你也不認識我。但先網(wǎng)站制作后付款的網(wǎng)站建設流程,更有烏魯木齊免費網(wǎng)站建設讓你可以放心的選擇與我們合作。
為了參加某個作秀活動,研究了一波如何結合小程序、科大訊飛實現(xiàn)語音錄入、識別的實現(xiàn)。科大訊飛開發(fā)文檔中只給出 Python 的 demo,并沒有給出 node.js 的 sdk,但問題不大。本文將從小程序相關代碼到最后對接科大訊飛 api 過程,一步步介紹,半個小時,搭建完成小程序語音識別功能!不能再多了!
當然,前提是最好掌握有一點點小程序、node.js 甚至是音頻相關的知識。下面話不多說了,來一起看看詳細的介紹吧
架構先行
架構比較簡單,大伙兒可以先看下圖。除了小程序,需要提供 3 個服務,文件上傳、音頻編碼及對接科大訊飛的服務。
node.js 對接科大訊飛的 api,npm 上已經(jīng)有同學提供了 sdk,有興趣的同學可以去搜索了解一下,筆者這里是直接調(diào)用了科大訊飛的 api 接口。
擼起袖子加油干
1、創(chuàng)建小程序
鵝廠的小程序文檔非常詳細,在這里筆者就不對如何創(chuàng)建一個小程序的步驟進行詳細闡述了。有需要的同學可以查看鵝廠的小程序開發(fā)文檔。
1.1 相關代碼
我們摘取小程序里面,語音錄入和語音上傳部分的代碼。
// 根據(jù)wx提供的api創(chuàng)建錄音管理對象 const recorderManager = wx.getRecorderManager(); // 監(jiān)聽語音識別結束后的行為 recorderManager.onStop(recorderResponse => { // tempFilePath 是錄制的音頻文件 const { tempFilePath } = recorderResponse; // 上傳音頻文件,完成語音識別翻譯 wx.uploadFile({ url: 'http://127.0.0.1:7001/voice', // 該服務在后面搭建。另外,小程序發(fā)布時要求后臺服務提供https服務!這里的地址僅為開發(fā)環(huán)境配置。 filePath: tempFilePath, name: 'file', complete: res => { console.log(res); // 我們期待res,就是翻譯后的內(nèi)容 } }); }); // 開始錄音,觸發(fā)條件可以是按鈕或其他,由你自己決定 recorderManager.start({ duration: 5000 // 最長錄制時間 // 其他參數(shù)可以默認,更多參數(shù)可以查看https://developers.weixin.qq.com/miniprogram/dev/api/media/recorder/RecorderManager.start.html });
2、搭建文件服務器
步驟 1 代碼中提到了一個 url 地址大家應該都還記得。
http://127.0.0.1:7001/voice
小程序本身還并沒有提供語音識別的功能,所以在這里我們需要借助于“后端”服務的能力,完成我們語音識別翻譯的功能。
2.1 egg.js 服務初始化
我們使用 egg.js 的 cli 快速初始化一個工程,當然你也可以使用 express、koa、kraken 等等框架,框架的選型在此不是重點我們就不做展開闡述了。對 egg.js 不熟悉的同學可以查看egg.js 的官網(wǎng)。
npm i egg-init -g egg-init voice-server --type=simple cd voice-server npm i
安裝完成后,執(zhí)行以下代碼
npm run dev
隨后訪問瀏覽器http://127.0.0.1:7001應該可以看到一個Hi, egg 的頁面。至此我們的服務初始化完成。
2.2 文件上傳接口
a) 修改 egg.js 的文件上傳配置
打開 config/config.default.js,添加以下兩項配置
module.exports = appInfo => { ... config.multipart = { fileSize: '2gb', // 限制文件大小 whitelist: [ '.aac', '.m4a', '.mp3' ], // 支持上傳的文件后綴名 }; config.security = { csrf: { enable: false // 關閉csrf } }; ... }
b) 添加 VoiceController
打開 app/controller 文件夾,新建文件 voice.js。編寫 VoiceController 使其繼承于 egg.js 的 Controller。具體代碼如下:
const Controller = require('egg').Controller; const fs = require('fs'); const path = require('path'); const pump = require('mz-modules/pump'); const uuidv1 = require('uuid/v1'); // 依賴于uuid庫,用于生成唯一文件名,使用npm i uuid安裝即可 // 音頻文件上傳后存儲的路徑 const targetPath = path.resolve(__dirname, '..', '..', 'uploads'); class VoiceController extends Controller { constructor(params) { super(params); if (!fs.existsSync(targetPath)) { fs.mkdirSync(targetPath); } } async translate() { const parts = this.ctx.multipart({ autoFields: true }); let stream; const voicePath = path.join(targetPath, uuidv1()); while (!isEmpty((stream = await parts()))) { await pump(stream, fs.createWriteStream(voicePath)); } // 到這里就完成了文件上傳。如果你不需要文件落地,也可以在后續(xù)的操作中,直接使用stream操作文件流 ... // 音頻編碼 // 科大訊飛語音識別 ... } }
c) 最后一步,新增路由規(guī)則
寫完 controller 之后,我們依據(jù) egg.js 的規(guī)則,在 router.js 里面新增一個路由。
module.exports = app => { const { router, controller } = app; router.get('/', controller.home.index); router.get('/voice', controller.voice.translate); };
OK,至此你可以測試一下從小程序錄音,錄音完成后上傳到后臺文件服務器的完整流程。如果沒問題,那恭喜你你已經(jīng)完成了 80%的工作了!
3、音頻編碼服務
在上文中,小程序錄音的方法 recorderManager.start 的時候我們提及到了“更多參數(shù)”。其中有一個參數(shù)是 format,支持 aac 和 mp3 兩種(默認是 aac)。然后我們查閱了科大訊飛的 api 文檔,音頻編碼支持“未壓縮的 pcm 或 wav 格式”。
什么 aac、pcm、wav?emmm.. OK,我們只是前端,既然格式不對等,那只需要完成 aac -> pcm 轉化即可,ffmpeg 立即浮現(xiàn)在筆者的腦海里。一番搜索,命令大概是這樣子的:
ffmpeg -i uploads/a3f588d0-edf8-11e8-b6f5-2929aef1b7f8.aac -f s16le -ar 8000 -ac 2 -y decoded.pcm
# -i 后面帶的是源文件
# -f s16le 指的是編碼格式
# -ar 8000 編碼碼率
# -ac 2 通道
接下來我們使用 node.js 來實現(xiàn)上述命令。
3.1 引入相關依賴包
npm i ffmpeg-static npm i fluent-ffmpeg
3.2 創(chuàng)建一個編碼服務
在 app/service 文件夾中,創(chuàng)建 ffmpeg.js 文件。新建 FFmpegService 繼承于 egg.js 的 Service
const { Service } = require('egg'); const ffmpeg = require('fluent-ffmpeg'); const ffmpegStatic = require('ffmpeg-static'); const path = require('path'); const fs = require('fs'); ffmpeg.setFfmpegPath(ffmpegStatic.path); class FFmpegService extends Service { async aac2pcm(voicePath) { const command = ffmpeg(voicePath); // 方便測試,我們將轉碼后文件落地到磁盤 const targetDir = path.join(path.dirname(voicePath), 'pcm'); if (!fs.existsSync(targetDir)) { fs.mkdirSync(targetDir); } const target = path.join(targetDir, path.basename(voicePath)) + '.pcm'; return new Promise((resolve, reject) => { command .audioCodec('pcm_s16le') .audioChannels(2) .audioBitrate(8000) .output(target) .on('error', error => { reject(error); }) .on('end', () => { resolve(target); }) .run(); }); } } module.exports = FFmpegService;
3.3 調(diào)用 ffmpegService,獲得 pcm 文件
回到 app/controller/voice.js 文件中,我們在文件上傳完成后,調(diào)用 ffmpegService 提供的 aac2pcm 方法,獲取到 pcm 文件的路徑。
// app/controller/voice.js ... async translate() { ... ... const pcmPath = await this.ctx.service.ffmpeg.aac2pcm(voicePath); ... } ...
4、對接科大訊飛 API
首先,需要到科大訊飛開放平臺注冊并新增應用、開通應用的語音聽寫服務。
我們再寫一個服務,在 app/service 文件夾下創(chuàng)建 xfyun.js 文件,實現(xiàn) XFYunService 繼承于 egg.js 的 Service。
4.1 引入相關依賴
npm i axios // 網(wǎng)絡請求庫 npm i md5 // 科大訊飛接口中需要md5計算 npm i form-urlencoded // 接口中需要對部分內(nèi)容進行urlencoded
4.2 XFYunService 實現(xiàn)
const { Service } = require('egg'); const fs = require('fs'); const formUrlencoded = require('form-urlencoded').default; const axios = require('axios'); const md5 = require('md5'); const API_KEY = 'xxxx'; // 在科大訊飛控制臺上可以查到服務的APIKey const API_ID = 'xxxxx'; // 同樣可以在控制臺查到 class XFYunService extends Service { async voiceTranslate(voicePath) { // 繼上文,暴力的讀取文件 let data = fs.readFileSync(voicePath); // 將內(nèi)容進行base64編碼 data = new Buffer(data).toString('base64'); // 進行url encode data = formUrlencoded({ audio: data }); const params = { engine_type: 'sms16k', aue: 'raw' }; const x_CurTime = Math.floor(new Date().getTime() / 1000) + '', x_Param = new Buffer(JSON.stringify(params)).toString('base64'); return axios({ url: 'http://api.xfyun.cn/v1/service/v1/iat', method: 'POST', data, headers: { 'X-Appid': API_ID, 'X-CurTime': x_CurTime, 'X-Param': x_Param, 'X-CheckSum': md5(API_KEY + x_CurTime + x_Param) } }).then(res => { // 查詢成功后,返回response的data return res.data || {}; }); } } module.exports = XFYunService;
4.3 調(diào)用 XFYunService,完成語音識別
再次回到 app/controller/voice.js 文件中,我們在 ffmpeg 轉碼完成后,調(diào)用 XFYunService 提供的 voiceTranslate 方法,完成語音識別。
// app/controller/voice.js ... async translate() { ... ... const result = await this.ctx.service.xfyun.voiceTranslate(pcmPath); this.ctx.body = result; if (+result.code !== 0) { this.ctx.status = 500; } } ...
至此我們完成語音識別的代碼編寫。主要流程其實很簡單,通過小程序錄入語音文件,上傳到文件服務器之后,通過 ffmpeg 獲取到 pcm 文件, 最后再轉發(fā)到科大訊飛的 api 接口進行識別。
以上,如有錯漏,歡迎指正!
總結
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對創(chuàng)新互聯(lián)的支持。