วันนี้ 10 กุมภาพันธ์ พ.ศ.2567 ทาง PyThaiNLP ชุดคำสั่งเครื่องมือประมวลข้อความภาษาไทยสำหรับงานวิเคราะห์ข้อมูล ภาษาศาสตร์ งานปัญญาประดิษฐ์ แบบโอเพ่นซอร์ส ได้ปล่อย PyThaiNLP รุ่น 5.0 หลังจากที่ปล่อย PyThaiNLP 4.0 ไปเมื่อปีก่อน โดย PyThaiNLP 5.0 มีการเปลี่ยนแปลงสรุปได้ดังนี้
วันนี้ทาง PyThaiNLP กับสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย AIReserach.in.th ได้เปิดตัวโมเดล WangChanGLM (วังช้างแอลเอ็ม) โมเดลแชทแบบ ChatGPT รองรับทั้งภาษาไทย, ภาษาอังกฤษ, ภาษาญี่ปุ่น, ภาษาเวียดนาม, และภาษาอื่น ๆ ออกสู่สาธารณะ โดยเปิดซอร์สโค้ดทั้งหมด ชุดข้อมูล และโมเดล ให้สามารถนำไปใช้งานต่อได้แบบฟรี ๆ รวมถึงเทรนต่อได้ โดยโค้ดเป็น Apache License 2.0 ส่วนโมเดลใช้ CC BY-SA 4.0
วันนี้ทาง PyThaiNLP ได้ปล่อย PyThaiNLP รุ่น 4.0 (Real) เป็นที่เรียบร้อย โดย PyThaiNLP เป็นชุดคำสั่งสำหรับงานประมวลผลภาษาไทย เพื่อใช้งานในการวิเคราะห์ข้อมูลภาษาไทย
สำหรับรุ่น 4.0 นี้เน้นไปเรื่องการปรับปรุงประสิทธิภาพเป็นหลัก ปรับปรุงการตัดคำ แก้ไขปัญหาด้านโมเดล
หลังจากที่กระแส ChatGPT ได้สร้างปรากฏการณ์ในวงการคอมพิวเตอร์จำนวนมาก ทั้ง Bing นำมาเป็นส่วนหนึ่งของระบบค้นหา, Google เปิดตัว Bard ที่ใช้ LaMBDA มาเพื่อแข่งกับ Bing และอื่น ๆ แต่ผู้ใช้งาน ChatGPT คงเจอปัญหาเวลาใช้งาน ChatGPT กับภาษาไทยแล้วทำงานช้ามาก เพราะ ChatGPT ไม่ได้ฝึกฝนด้วยชุดข้อมูลภาษาไทย นอกจากนั้น ChatGPT ยังเป็นซอฟต์แวร์ที่เป็นกรรมสิทธิ์ของ OpenAI และไม่ได้เป็น Open Source (ไม่เปิดเผยชุดข้อมูลที่ใช้ฝึกสอน-ไม่เปิดเผย Source Code)
วันนี้ 24 กันยายน ค.ศ.2022 ทางทีมพัฒนา PyThaiNLP ได้ปล่อยแพ็กเกจประมวลผลภาษาไทย PyThaiNLP รุ่น 3.1 บนภาษาไพธอนอย่างเป็นทางการ
สำหรับ PyThaiNLP 3.1 สรุปการเปลี่ยนแปลงได้ดังนี้
- เพิ่ม Dependency Parsing สำหรับวิเคราะห์โครงสร้างทางภาษาไทย
- เพิ่มการทับศัพท์ภาษาจีน ภาษาญี่ปุ่น และอื่น ๆ ให้กลายเป็นภาษาไทย ผ่านแพ็กเกจ wunsen
- เพิ่มแบบจำลองการสรุปข้อความ mt5 สำหรับภาษาไทยตัวใหม่
- เพิ่ม Thai-NNER (Thai Nested Named Entity Recognition) หรือตัววิเคราะห์นิพจน์หลายชั้น โดยสามารถวิเคราะห์ข้อความภาษาไทยได้ละเอียดกว่า Named Entity Recognition ตรงที่สามารถวิเคราะห์นิพจน์ย่อยได้
วันนี้ 30 มกราคม พ.ศ.2565 ทางทีมพัฒนา PyThaiNLP ได้ปล่อยแพ็กเกจประมวลผลภาษาธรรมชาติ PyThaiNLP รุ่น 3.0 หลังจากที่ปล่อย PyThaiNLP 2.3 ไปเมื่อปีก่อน
PyThaiNLP 3.0 มีความเปลี่ยนแปลงสรุปได้ดังนี้
วันนี้ทางสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (AIResearch) และทีม PyThaiNLP ปล่อยโมเดลถอดความจากเสียงพูดภาษาไทย (Automatic Speech Recognition) ที่มีความแม่นยำทัดเทียมกับกูเกิล และบริษัทชั้นนำอื่น ๆ
โมเดลดังกล่าวฝึกฝนบนชุดข้อมูล Mozilla Common Voice 7.0 ที่ได้รับการบริจาคเสียงภาษาไทย จำนวน 133 ชั่วโมง ผู้พูด 7,212 คน (อ่านเพิ่มเติม ร่วมบริจาคเสียงพูดภาษาไทยด้วย Mozilla Common Voice) โดยฝึกกับโมเดล XLSR-Wav2Vec2 ของ Facebook
ทางสถาบันวิจัยได้ปล่อยโมเดลมาในรูปแบบลิขสิทธิ์ CC-BY-SA 4.0 และได้อัปโหลดขึ้น Hugging Face โดยสามารถใช้งานได้ผ่านไลบรารี transformers ในภาษาไพธอนได้
วันที่ 31 มีนาคม พ.ศ.2564 ไลบรารีภาษาไพธอนสำหรับประมวลผลภาษาไทย PyThaiNLP ได้ปล่อยเวอร์ชัน 2.3 โดยสรุปความเปลี่ยนแปลงได้ดังนี้
ข้อมูลเปิดเผย: ผู้เขียนเป็นสมาชิกในทีมพัฒนา PyThaiNLP
วันที่ 24 มิถุนายน พ.ศ.2563 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.2 โดยเน้นปรับปรุงประสิทธิภาพการทำงานของไลบรารี โดยสรุปความเปลี่ยนแปลงได้ดังนี้
วันที่ 10 ธันวาคม พ.ศ.2562 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.1 โดยสรุปความสามารถใหม่ดังนี้