เมื่อปีที่แล้ว กูเกิลเพิ่มฟีเจอร์ OCR แปลงข้อความจาก PDF และรูปภาพลง Google Docs
ล่าสุดกูเกิลประกาศว่าฟีเจอร์ OCR รองรับภาษาเพิ่มเติมอีก 29 ภาษา ผมลองเช็คดูแล้วก็มีภาษาไทยด้วย แต่เท่าที่ลองทดสอบแล้วยังไม่สมบูรณ์ขนาดใช้งานจริงได้ ถ้าใครทดสอบแล้วได้ผลที่ดีกว่านี้ก็แจ้งมาได้ครับ
ที่มา - Google Docs Blog
ภาษาไทยมีให้เลือกตอนอัพโหลดไฟล์ภาพหรือ PDF แล้วสั่งให้แปลงเป็นข้อความ
ผมลองอัพไฟล์ภาพทดสอบ 2 ไฟล์ ดูผลกันเอาเองตามลิงก์
Comments
ปวดตรั่บกว่า translate อีก= ='
May the Force Close be with you. || @nuttyi
ใช้กุเกิ้ลค้นหาแล้วมันแปลหน้าเวบให้ ทีแรกอ่านงงๆ ว่าใครเขียนบทความฟร่ะ อ่านเข้าใจยากฉิบ อ่านไปอ่านมาเริ่มเอะใจ มันแปลจากภาษาอังกฤษเป็นไทยนี่เอง อ่านแล้วมึนมากๆ
แปลงออกมาแล้ว นึกว่าภาษาเขมร - -*
เท่าที่ดู มันแยกภาษาอังกฤษกับภาษาไทย ที่อยู่ในหน้าเดียวกันไม่ได้แฮะ
อย่างน้อยก็ถือเป็นการเริ่มต้นแหละครับ เผื่ออนาคตจะได้มี OCR ไทยที่ใช้งานได้จริงๆ
ของ NECTEC ก็ต้องให้กำลังใจกันต่อไป
เป็นนิมิตหมายที่ดี
ปล ภาษาไทยมันยากจริงๆนะเนี้ย
ดีดี
รอให้สมบูรณ์จะแจ่มมาก
ขอตัดคำไทยใน docs ก่อนได้ไหมครับ = =
twitter.com/djnoly
ของ NECTEC มีสองตัว ArnThai (อ่านไทย) กับ ThaiOCR ผมว่า ArnThai นี่แปลงได้ดูดีสุดแล้วมั้งครับแต่หยุดพัฒนาไปแล้ว รันบน XP ยังไม่ได้เลย ต้อง 98 ส่วน ThaiOCR นี่ก็พอๆ กับ Google เลย แต่ผมว่าเริ่มมีมันก็น่าจะพัฒนาต่อไปเรื่อยๆ นะ
ปัญหาของ software ไทยคือความต่อเนื่องในการพัฒนาเนี่ยแหละ
เคยใช้ ThaiOCR ช่วยทำงานส่งอาจารย์ด้วย ตอนเรียน สนุกจะตาย... แก้ manual เองเกือบหมด LOL
ถ้าทำภาษาไทยได้ดีๆแบบตัวโรมันนะ มันจะทุ่นแรงได้เยอะมาก
abbyy finereader
ผมลองเล่นดู พยายามปรับ threshold ของตัวหนังสือให้เหลือขาวกับดำแล้วก็ยังไม่ค่อยเวิร์คแฮะ https://skitch.com/pittaya/r1mb9/history.png-google-docs
pittaya.com
ArnThai กับ ThaiOCR ไม่พัฒนาต่อ
ก็น่าจะประกาศเป็น public domain ไป หรือเป็น GPL ก็ได้
จะเกิดประโยชน์ต่อสาธารณะมากกว่า
ใช้ screen reader เข้าไปอ่านไฟล์ตัวอย่าง ฟังแล้วปวดตับ T_T
ราวกับภาษาเขมร ตามที่ ref บนว่าไว้นั่นล่ะ
@ Virusfowl
I'm not a dev. not yet a user.
ไฟล์สแกนบทความจากมติชนสุดสัปดาห์ อัพเดต 28 เม.ย. 2555 OCR ถูกปรับปรุงขึ้นมา ผมคิดว่าควรเพิ่มระบบคำที่ถูกต้องลงไปตรวจสอบด้วย เช่น ตอนทื เป็นคำไม่ถูกต้อง จะถูกแทนที่ ด้วยคำที่ใช้สื่อสารในปัจจุบัน ตอนที่ แทน
ocr ภาษาไทยที่รู้มาก็พัฒนาใช้กันเองในบริษัทใหญ่โตเป็นการภายใน
ผมว่าทำไมเราไม่ร่างจดหมายเปิดผนึก ขอให้ nectec เปิดซอร์ส arnthai เลยล่ะครับ เงินภาษีประชาชนแท้ๆ
ถ้าทำก็น่าจะทำให้เป็นข่าว และคนจะสนใจกันเยอะขึ้น ประชาชนเข้าถึงคอมพิวเตอร์และเครื่องสแกนกันมากแล้ว ต้องให้การสนับสนุนแน่นอน
ผมว่าน่าจะทำได้นะ เอามาพัฒนาเพิ่มกับ neural network ด้วยนี่น่าจะเยี่ยมเลย