นักวิจัยดึงข้อมูลภาพประกอบจากหนังสือเก่า 2.6 ล้านภาพ อัพลง Flickr

By: mk

on 31 August 2014 - 20:46 Tags:

Topics:

Digital Media

Flickr

Kalev Leetaru นักวิจัยจากมหาวิทยาลัย Georgetown สกัดรูปภาพจาก "หนังสือเก่า" ที่โครงการ Internet Archive เคยสแกนเอาไว้กว่า 600 ล้านหน้า แล้วอัพโหลดรูปภาพหายากเหล่านี้ขึ้น Flickr ให้เป็นสมบัติสาธารณะ

รูปภาพทั้งหมดดูได้จาก Internet Archive Book Images ปัจจุบันมีรูปถูกอัพโหลดขึ้นไปแล้ว 2.6 ล้านรูป ที่สำคัญคือรูปเหล่านี้มาพร้อมกับ metadata แบบละเอียดมากๆ ทั้งชื่อหนังสือ เลขหน้า และข้อความที่รายล้อมรูปนั้นๆ เพื่อให้รู้บริบทว่ารูปเกี่ยวข้องกับอะไรอีกด้วย

รูปเก่าเหล่านี้มีอายุตั้งแต่ปี 1500 มาจนถึงปี 1922 ที่อายุลิขสิทธิ์ภาพหมดแล้ว ใครสนใจภาพเก่าจากหนังสือเมื่อ 500 ปีก่อนลองดูในหมวด หนังสือปี 1500 ได้ครับ

ตัวอย่างภาพเก่าจากหนังสือปี 1557

ตัวอย่างภาพแผนที่โลกในปี 1672

ตัวอย่างภาพเก่าจากหนังสือปี 1912

กระบวนการทำงานของ Leetaru คือเขียนซอฟต์แวร์สกัดรูปภาพมาจากไฟล์ PDF ที่มีคนสแกนหนังสือเอาไว้แล้ว และใช้ซอฟต์แวร์ OCR ช่วยแปลงข้อความในหนังสือหน้านั้นๆ เป็น text เพื่อให้ค้นข้อมูลได้ง่าย

ที่มา - BBC, Flickr Blog, Internet Archive

Hiring! บริษัทที่น่าสนใจ

H LAB

Re-engineering healthcare systems through intelligent platforms and system design.

REFINITIV

The Financial and Risk business of Thomson Reuters is now Refinitiv

Bangmod Enterprise

The leader in Cloud Server and Hosting in Thailand.

Comments

By: itpcc

on 31 August 2014 - 20:51 #736697

กระบวนการจาก PDF มาไฟล์รูปนี่ไม่ค่อยยาก มายากตรง OCR นี่สิ -.-

บล็อกส่วนตัวที่อัพเดตตามอารมณ์และความขยัน :P

By: hostingdigg

on 31 August 2014 - 21:59 #736710 Reply to:736697

Comment โดนใจ : ดูเหมือน OCR เป็นอะไรที่ยังไม่สำเร็จในบ้านเราเลยครับ แม้เห็นหลายเจ้าพยายาม แม้แต่ Nectec เองที่ถือเป็นยอดฝีมือ ทำแล้วก็ยังไม่สมบูรณ์ ดังนั้นการสแกนแล้วใช้ OCR ภาษาไทยกำกับ font เพื่อให้เปิด pdf ภาษาไทย หรือทำ full text จากการสแกน ยังไม่สมบูรณ์เหมือนภาษาอังกฤษ อยากให้พัฒนาต่อครับ

By: iPongHD

on 31 August 2014 - 22:08 #736712 Reply to:736697

Google Drive ผมว่าทำได้ดีเลยทีเดียว

By: thanathornboss

on 1 September 2014 - 08:15 #736770 Reply to:736697

ArnThai ผมว่าทำได้ดีทีเดียว

I am Cortana.
Nice to meet you.

By: HudchewMan

on 31 August 2014 - 21:22 #736705

เป็นโครงการที่ดีมากๆ เลยครับ

อยากเอาหนังสือข้อมูลที่ตัวเองมีอยู่มาทำเป็นดิจิทัลเหมือนกัน จะได้ค้นคืนข้อมูลได้ง่ายๆ แต่หมดปัญญาทำ (_ _")

~ HudchewMan's Station & @HudchewMan~

By: hostingdigg

on 31 August 2014 - 22:06 #736711

เคยพบว่า การสแกนหนังสือเก่า ของ Internet Archive ใช้ความละเอียดเริ่มต้นที่ 1200dpi ขณะที่คนทั่วไปใช้ 300dpi หรือ 600dpi ก็คิดว่าดีแล้ว หลายหน่วยงานในไทย สแกนหนังสือเก่าก่อนจำหน่าย (ไม่รู้จริงๆ ว่าคำนี้หมายถึงอะไร ทิ้งหรือขาย) ออกจากห้องสมุด ด้วย resolution 300dpi

By: tekkasit

on 31 August 2014 - 22:35 #736716 Reply to:736711

คำว่า 'จำหน่าย' ในระเบียบพัสดุทางราชการว่าด้วยการจำหน่ายพัสดุจะครอบคลุมทั้ง ขายทอดตลาด, แลกเปลี่ยนระหว่างหน่วยงาน, โอนให้หน่วยงานอื่น และ แปรสภาพหรือทำลายครับ

ผมว่าถ้าเป็นหนังสือที่ไม่มีราคาค่างวดอะไร ดีไม่ดีอาจจะชั่งโลขายก็ได้มั้งครับ

By: nottoscale

on 31 August 2014 - 23:32 #736726

หนังสือเก่า โดยเฉพาะตำราเก่า ๆ บ้านเราขายยากมากเลยครับ ไม่ใช่ว่าหลักสูตรมันเก่านะมันยังใช้ได้แต่บ้านเราไม่ค่อยอ่านหนังสือหรือเปล่านะ พวกร้านรับแต่นิยาย การ์ตูน ขายคล่อง

By: freeriod on 1 September 2014 - 00:49 #736743

ไทยน่าจะส่งไปให้เค้าสแกนบ้าง

By: inote

on 1 September 2014 - 10:12 #736785

ปี1500นี่มันยุคไหนอ่ะ

By: Jaddngow

on 1 September 2014 - 15:54 #736868

1557 สุดยอดมาก รู้สึกได้ถึงประวัติศาสตร์

Main menu