Kalev Leetaru นักวิจัยจากมหาวิทยาลัย Georgetown สกัดรูปภาพจาก "หนังสือเก่า" ที่โครงการ Internet Archive เคยสแกนเอาไว้กว่า 600 ล้านหน้า แล้วอัพโหลดรูปภาพหายากเหล่านี้ขึ้น Flickr ให้เป็นสมบัติสาธารณะ
รูปภาพทั้งหมดดูได้จาก Internet Archive Book Images ปัจจุบันมีรูปถูกอัพโหลดขึ้นไปแล้ว 2.6 ล้านรูป ที่สำคัญคือรูปเหล่านี้มาพร้อมกับ metadata แบบละเอียดมากๆ ทั้งชื่อหนังสือ เลขหน้า และข้อความที่รายล้อมรูปนั้นๆ เพื่อให้รู้บริบทว่ารูปเกี่ยวข้องกับอะไรอีกด้วย
รูปเก่าเหล่านี้มีอายุตั้งแต่ปี 1500 มาจนถึงปี 1922 ที่อายุลิขสิทธิ์ภาพหมดแล้ว ใครสนใจภาพเก่าจากหนังสือเมื่อ 500 ปีก่อนลองดูในหมวด หนังสือปี 1500 ได้ครับ
ตัวอย่างภาพเก่าจากหนังสือปี 1557
ตัวอย่างภาพแผนที่โลกในปี 1672
ตัวอย่างภาพเก่าจากหนังสือปี 1912
กระบวนการทำงานของ Leetaru คือเขียนซอฟต์แวร์สกัดรูปภาพมาจากไฟล์ PDF ที่มีคนสแกนหนังสือเอาไว้แล้ว และใช้ซอฟต์แวร์ OCR ช่วยแปลงข้อความในหนังสือหน้านั้นๆ เป็น text เพื่อให้ค้นข้อมูลได้ง่าย
ที่มา - BBC, Flickr Blog, Internet Archive
Comments
กระบวนการจาก PDF มาไฟล์รูปนี่ไม่ค่อยยาก มายากตรง OCR นี่สิ -.-
บล็อกส่วนตัวที่อัพเดตตามอารมณ์และความขยัน :P
Comment โดนใจ : ดูเหมือน OCR เป็นอะไรที่ยังไม่สำเร็จในบ้านเราเลยครับ แม้เห็นหลายเจ้าพยายาม แม้แต่ Nectec เองที่ถือเป็นยอดฝีมือ ทำแล้วก็ยังไม่สมบูรณ์ ดังนั้นการสแกนแล้วใช้ OCR ภาษาไทยกำกับ font เพื่อให้เปิด pdf ภาษาไทย หรือทำ full text จากการสแกน ยังไม่สมบูรณ์เหมือนภาษาอังกฤษ อยากให้พัฒนาต่อครับ
Google Drive ผมว่าทำได้ดีเลยทีเดียว
ArnThai ผมว่าทำได้ดีทีเดียว
I am Cortana.
Nice to meet you.
เป็นโครงการที่ดีมากๆ เลยครับ
อยากเอาหนังสือข้อมูลที่ตัวเองมีอยู่มาทำเป็นดิจิทัลเหมือนกัน จะได้ค้นคืนข้อมูลได้ง่ายๆ แต่หมดปัญญาทำ (_ _")
~ HudchewMan's Station & @HudchewMan~
เคยพบว่า การสแกนหนังสือเก่า ของ Internet Archive ใช้ความละเอียดเริ่มต้นที่ 1200dpi ขณะที่คนทั่วไปใช้ 300dpi หรือ 600dpi ก็คิดว่าดีแล้ว หลายหน่วยงานในไทย สแกนหนังสือเก่าก่อนจำหน่าย (ไม่รู้จริงๆ ว่าคำนี้หมายถึงอะไร ทิ้งหรือขาย) ออกจากห้องสมุด ด้วย resolution 300dpi
คำว่า 'จำหน่าย' ในระเบียบพัสดุทางราชการว่าด้วยการจำหน่ายพัสดุจะครอบคลุมทั้ง ขายทอดตลาด, แลกเปลี่ยนระหว่างหน่วยงาน, โอนให้หน่วยงานอื่น และ แปรสภาพหรือทำลายครับ
ผมว่าถ้าเป็นหนังสือที่ไม่มีราคาค่างวดอะไร ดีไม่ดีอาจจะชั่งโลขายก็ได้มั้งครับ
หนังสือเก่า โดยเฉพาะตำราเก่า ๆ บ้านเราขายยากมากเลยครับ ไม่ใช่ว่าหลักสูตรมันเก่านะมันยังใช้ได้แต่บ้านเราไม่ค่อยอ่านหนังสือหรือเปล่านะ พวกร้านรับแต่นิยาย การ์ตูน ขายคล่อง
ไทยน่าจะส่งไปให้เค้าสแกนบ้าง
ปี1500นี่มันยุคไหนอ่ะ
1557 สุดยอดมาก รู้สึกได้ถึงประวัติศาสตร์