ผลทดสอบ Tokenizer ของ GPT-4o ภาษาไทยประหยัดเท่าตัว

By: lew

on 14 May 2024 - 10:22 Tags:

Topics:

OpenAI

ChatGPT

LLM

เมื่อคืนที่ผ่านมา OpenAI เปิดตัว GPT-4o พร้อมกับประกาศเปลี่ยน tokenizer ใหม่โดยอาศัย 20 ภาษาต้นแบบในการบีบอัดข้อมูล ทำให้ภาษาต่างๆ ประหยัดโทเค็นยิ่งขึ้น แม้ภาษาไทยจะไม่อยู่ในรายชื่อ 20 ภาษา แต่ผลการทดลองก็พบว่าภาษาไทยนั้นประหยัดโทเค็นลงเท่าตัว

tokenizer ของ GPT-4o สามารถจับคำหรือส่วนของคำในภาษาไทยได้ชัดเจน คำสามัญเช่น "ของ" หรือ "จำนวน" ก็สามารถมองเป็นโทเค็นเดียวได้ทันที เทียบกับ tokenizer ของ GPT-4 ที่ไม่สามารถรวบตัวอักษรหลายตัวในภาษาไทยเข้าด้วยกันได้เลย ทำให้จำนวนโทเค็นกับจำนวนตัวอักษรใกล้เคียงกัน

ค่า API ของ GPT-4o นั้นประหยัดลงเท่าตัว และเมื่อภาษาไทยได้ประโยชน์จากการประหยัดโทเค็นลงอีกเท่าตัวก็น่าจะทำให้ค่าใช้งานโดยรวมลดลงเหลือเพียง 1 ใน 4 เท่านั้น

ที่มา - HuggingFace: The Tokenizer Playground

No Description

การตัดโทเค็นของ GPT-4o

No Description

การตัดโทเค็นของ GPT-4/GPT-4 Turbo