กูเกิลเปิดโครงการ Magika โมเดลปัญญาประดิษฐ์ขนาดเล็กสำหรับการระบุชนิดไฟล์ หรือ mime type เพื่อให้โปรแกรมต่างๆ จัดการไฟล์ได้ถูกต้อง
กระบวนการระบุชนิดไฟล์นั้นไม่มีกฎเกณฑ์ชัดเจน โปรแกรม file สำหรับคาดเดาประเภทไฟล์นั้นเกิดขึ้นครั้งแรกใน Unix เวอร์ชั่น 4 เมื่อปี 1973 หรือ 51 ปีมาแล้ว ทุกวันนี้โค้ดยังคงใช้งานกันต่อมาเรื่อยๆ โครงการ file นั้นใช้ระบบ source control ตัวแรกคือ RCS เมื่อปี 1987 ก่อนหน้า CVS ด้วยซ้ำ
Magika เปลี่ยนแนวทางโดยอาศัยโมเดลปัญญาประดิษฐ์แบบ deep learning พัฒนาด้วย Keras และรันด้วย ONNX ตัวโมเดลที่ได้มีขนาดเพียง 1MB และคาดเดาชนิดไฟล์ได้ภายในไม่กี่มิลลิวินาทีแม้จะรันบนซีพียู ข้อดีสำคัญคือมันแม่นยำอย่างมาก โดยรวม F1-score สูงถึง 99.31% เทียบกับคำสั่ง file ที่ทำได้เพียง 81.30% เท่านั้น
Magika เปิดให้ใช้งานฟรีเป็นไลเซนส์แบบ Apache 2.0 สามารถติดตั้งผ่านคำสั่ง pip install magika
ได้ทันที และยังมีเวอร์ชั่น npm แต่ยังอยู่ในขั้นทดลองเท่านั้น
ที่มา - Google Open Source Blog
Comments
สระอิเกินมาครับ
Coder | Designer | Thinker | Blogger