หน้าเว็บ

วันจันทร์ที่ 12 กรกฎาคม พ.ศ. 2553

วิธี extract text จากไฟล์ pdf บน Ubuntu

ใช้คำสั่ง
pdftotext filename.pdf
โดย filename.pdf แทนด้วยชื่อไฟล์ที่เราต้องการ แล้วโปรแกรมจะสร้างไฟล์ที่ชื่อเหมือนกันว่า filename.txt ออกมา

ในกรณีที่ต้องการทำหลายๆไฟล์ ให้นำไฟล์ .pdf ทั้งหมดใส่ไว้ในโฟลเดอร์เดียวแล้วสั่ง bash script ดังนี้
$for f in *.pdf
> do
> pdftotext "$f"
>done


ระบบที่ทดสอบ
OS: Ubuntu 10.04

ที่มา:
http://en.wikipedia.org/wiki/Pdftotext วันที่ 12 ก.ค. 53

ไม่มีความคิดเห็น: