整理图书信息最麻烦的就是输入目录内容,一开始都是在豆瓣上复制后粘贴,不过有很多书籍并没有目录,不得已只能手工输入,如果有PDF的话就通过OCR软件识别后粘贴。
其实网上有很多PDF做的还是不错的,提供了详细的书签,而这些书签就是图书的详细目录,如下:
带书签的PDF.png
用PDF编辑器只能导出为XML格式的,打开之后是这样的内容:

<?xml version="1.0" encoding="UTF-8"?>

-<BOOKMARKS>

<ITEM INDENT="0" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=736.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="1" NAME="封面"/>

<ITEM INDENT="0" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=708.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="3" NAME="书名"/>

<ITEM INDENT="0" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=708.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="4" NAME="前言"/>

<ITEM INDENT="0" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=708.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="27" NAME="目录"/>

<ITEM INDENT="0" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=708.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="41" NAME="前言"/>

<ITEM INDENT="0" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=708.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="41" NAME="开始之前:帮你成功的学习技能"/>


-<ITEM INDENT="0" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=708.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="43" NAME=" 第一部分 介绍和基础">


-<ITEM INDENT="1" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=708.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="43" NAME="第一章 心理学是什么?">

<ITEM INDENT="2" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=708.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="43" NAME=" 前言"/>


-<ITEM INDENT="2" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=708.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="44" NAME=" 心理+科学=心理学">

<ITEM INDENT="3" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=708.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="45" NAME=" 心理学的定义"/>

<ITEM INDENT="3" Open="true" ACTION="" STYLE="notbold,notitalic" COLOR="0,0,0" VIEWRECT="Left=0.000000;Top=708.000000" ZOOM="0.000000" FITETYPE="XYZ" PAGE="45" NAME=" 心理学的目标"/>

</ITEM>

其实我只需要简单的文本,并不需要格式。还好有网友跟我有同样的需求,所以开发了一款小工具(PDFBookmark),操作后如下:
pdf书签导出.png
不过呢,我并不需要页码,如果手工删除的话,向上面的那本书,总共四百多行,每行删除一次,最少也要半个小时以上。
当然,如果会Python之类的编程,估计几行代码就搞定了,只是我不会,我也没找到合适的代码。
另一种方法,其实软件作者也提到了,就是通过文本编辑器的列块复制和粘贴,比如我用的Notepad++。
Notepad++列块编辑.png
将页码前的内容选中后再复制黏贴,看上去很不错。但是,问题依然有,每行后面还拖了大量的空格。这个就交给Notepad++好了,点击“编辑”菜单->空白字符操作->删除行尾空格。
至此,又节约了大量的时间。

最后修改:2021 年 11 月 03 日
如果觉得我的文章对你有用,请随意赞赏