文字转语音 - 《Electron 飞行指南》

TTS
注册 API
安装 TTS 依赖
连接音频
安装其他依赖
添加帮助方法
重构一下定义文件
主逻辑

TTS

TTS 的全称是 Text to Speech，里面的核心其实是深度学习，需要一定的 Python 基础，笔者的 Python 也还停在基础阶段，没有深入学习训练模型库，大家要是感兴趣的话可以关注一些 Mozalia 的 TTS 项目。所以我们使用别人提供的免费 API，比如讯飞和百度的，这里我们使用百度的为例。

注册 API

首先到 AI 百度注册账号，进入控制台的 [人工智能] -> [百度语音] ，然后创建一个应用，然后可以获得 AppID API Key Secret Key ，对于老油条看文档就够了，假如你对它们其他产品比较感兴趣，它们还提供了接入教程。

使用百度的 API 有一个坏处就是还需要自己分割，一次只能处理 500 多个文字。大家其实也可以用讯飞的 API，其他开发者也封装了一个库，同样也是免费的。笔者也封装了一个百度 API 命令行的库，通过硬件接口播放音频的，即解码 Mp3，转化成模拟信号，输出到声音驱动上。

因为我封装的库里面有 c++ 扩展接口，为了解码 mp3 的库，使用这个库会把它编译进来，我们还是把部分代码复制过来好了。

安装 TTS 依赖

npm install baidu-aip-sdk --save-dev

连接音频

使用 ffmpeg ，不过需要提前安装 ffmpeg ，MAC 用户使用 brew install ffmpeg 安装，这样会输出一些小片段文件，这种方式不是特别好。

ffmpeg -i 'concat:0.mp3|1.mp3|2.mp3|3.mp3|4.mp3|5.mp3' -acodec copy all.mp3

所以我们使用 mp3-concat 这个库，不过同样需要安装 mp3cat 这个命令，他接受的是数据，所以通过重定向工作，不过 npm 包则通过 stream 工作。

mp3cat - - < infile.mp3 > outfile.mp3

文档给的是复用转换流，我尝试了发现会丢失一些音频，并且不会触发 close 事件，最后还是决定不复用，使用 close 事件来结束 Promise 实例。

安装其他依赖

brew install mp3cat // 连接 mp3 文件，只适用 unix 环境
npm install mp3-concat from2 --save // js 的版本，它通过 child_process 掉用命令行的版本
npm install @types/from2 --save-dev

from2 是创建流的一个工具，对于 stream 我也有录制过视频，不过这个不是免费的。

添加帮助方法

创建 helper.ts

function ready() {
  let resolveFN, rejectFN
  let promise = new Promise(
    (resolve, reject) => ([resolveFN, rejectFN] = [resolve, reject])
  )
  return [resolveFN, rejectFN, promise]
}
export { ready }

重构一下定义文件

在们下面新建 types 文件，把所有定义文件放到这里面综合管理。修改 tsconfig.json 的 pathRoot 为该目录

 "typeRoots": ["./src/main/types"],

新建 types/baidu-aip-sdk.d.ts

declare module 'baidu-aip-sdk' {
  class AipSpeechClient {
    constructor(...args: any[])
    text2audio(text: string, opts: any): { data: Buffer }
  }
  export { AipSpeechClient as speech }
}

新建 types/mp3-concat.d.ts，修改 shim.d.ts 为 electron-util.d.ts

declare module 'mp3-concat' {
  const all: any
  export default all
}

主逻辑

新建 main/TTS.ts

import { speech } from 'baidu-aip-sdk'
import from2 from 'from2'
import { createWriteStream } from 'fs'
import concatstream from 'mp3-concat'
import { ensureDir, readJson } from 'fs-extra'
import { resolve } from 'path'
import { ready } from './helper'
import log from './statusLog'

准备必要的 key ，你可以通过环境变量取得，也可以直接赋值，最后我们会从设置里面去读取。

const APP_ID = process.env.BAIDU_READER_APP_ID
const API_KEY = process.env.BAIDU_READER_API_KEY
const SECRET_KEY = process.env.BAIDU_READER_SECRET_KEY

新建客户端

const client = new speech(APP_ID, API_KEY, SECRET_KEY)

分割文字

const splitText = (text: string) => {
  // 每次只接受 1024 字节，所以要分割。
  const length = text.length
  const datas = []
  let index = 0
  while (index <= length) {
    let currentText = text.substr(index, 510)
    index += 510
    datas.push(currentText)
  }
  return datas
}

保存文件，先将数组通过 from2 转换为流，再传入到合并流里面，最后输出。

const saveFile = (datas: Buffer[], path: string) => {
  const saveStream = createWriteStream(path) // 创建可写流
  const [yes, _, promise] = ready()
  from2(datas) // 将数据传入 from2 构建流
    .pipe(concatstream()) // 通过 mp3 concat 连接
    .pipe(saveStream) // 保存
    .on('close', yes)
  return promise
}

拉取 mp3 数据

const getMp3Data = async (text: string, opts: any = {}) => {
  const textArr = splitText(text)
  return Promise.all(
    textArr.map(async chunk => {
      const { data } = await client.text2audio(chunk, opts)
      return data
    })
  )
}

导出转换函数

const transform = async (pathRoot: string) => {
  const chaptersPath = resolve(pathRoot, 'chapters.json')
  try {
    const chapters = await readJson(chaptersPath)
    let i = 0
    const len = chapters.length
    while (i < len) {
      let chapter = chapters[i]
      const chapterPath = resolve(
        pathRoot,
        'text',
        `${i}-${chapter.title}.json`
      )
      const chapterSavePath = resolve(pathRoot, 'audio')
      await ensureDir(chapterSavePath)
      const text = await readJson(chapterPath)
      const datas = await getMp3Data(text, client)
      await saveFile(
        datas,
        resolve(chapterSavePath, `${i}-${chapter.title}.mp3`)
      )
      log({
        title: `${i}-${chapter.title}.mp3`,
        type: 'audio',
        percent: Math.ceil((i / len) * 100)
      })
      i += 1
    }
  } catch (error) {
    log({ type: 'audio', step: 'error', message: error.message })
  }
}
export default transform