Pdf文件操作

“leanpro.visual”中的Pdf类提供了Pdf文件内容提取的功能。

Pdf类有如下的定义

  1. interface PdfExtractOptions {
  2. fontSize?: number,
  3. password?: string
  4. }
  5. class Pdf {
  6. static fromFile(inputFile: string): Pdf;
  7. async extract(pageNum: number, options: PdfExtractOptions): Promise<string>;
  8. }

其中:

fromFile

静态方法,可从Pdf文件中生成Pdf对象实例。这个实例可用来执行后继的操作。

extract

传入页号和其它提取参数,提取Pdf实例对象中的第几页内容。页码从1开始。

举例:

  1. let { Pdf } = require('leanpro.visual')
  2. async function test() {
  3. let inputFile = __dirname + '/sample.pdf';
  4. let pageNum = 1;
  5. let pdf = Pdf.fromFile(inputFile);
  6. let content = await pdf.extract(pageNum);
  7. console.log(content);
  8. }
  9. test();

上述例子提取sample.pdf文件中的第一页内容并输出。