在创建图书资料的时候,目录信息往往都比较麻烦。如果豆瓣上有,直接复制黏贴一下就行;如果读秀收录过,那么通过书签获取工具也能获取一部分(前提是要知道读秀号以及收录时创建过标签);要么就是通过各种购书网站(比如亚马逊、当当、京东等)提供的目录内容。这些方法通常面临的就是目录不全,缺少细目或直接省略了中间部分。
之前为解决这些问题都是通过OCR软件手动在PDF文件(或者通过图书馆联盟提供的目录页)中截取出内容,字体小了准确率不高,字体大了又得花好几次进行提取。随着技术的成熟,整页提取的效率稍微提高了些许,但仍不够便捷。直到发现了Kimi.ai这个宝藏。
作为AI工具,Kimi的一大特色就是直接扔一个PDF给它就能生成你希望的内容,比如我想要的目录内容。
所以,如今再碰到目录问题,首先从图书馆联盟中下载书籍的辅助页(包括版权、目录等内容的PDF文件),然后提交给Kimi,让它以各种格式(如Markdown或MediaWiki)提取其中的目录。
试了几个,准确率不错,还能根据实际情况自动生成目录层次。
Kimi提取图书目录.jpg

最后修改:2024 年 07 月 12 日
如果觉得我的文章对你有用,请随意赞赏