วันที่ 24 มิถุนายน พ.ศ.2563 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.2 โดยเน้นปรับปรุงประสิทธิภาพการทำงานของไลบรารี โดยสรุปความเปลี่ยนแปลงได้ดังนี้
- เพิ่มตัวตัดประโยค CRFCut
- เพิ่มการถอดเสียงภาษาไทยเป็น IPA ด้วย Deep learning
- เพิ่มเติมความสามารถให้กับฟังก์ชัน normalize หรือฟังก์ชันปรับปรุงข้อความ เช่น ลบช่องว่างซ้ำกัน, ลบวรรณยุกต์ซ้ำในข้อความ เป็นต้น
- ปรับปรุงโค้ด: ย้ายโค้ดออกจากไฟล์
__init__.py
เป็นต้น
- ลดความต้องการไลบรารีภายนอก: Unigram POS tagger สามารถทำงานได้โดยไม่ต้องการ NLTK
สามารถอ่านรายละเอียดได้ที่ GitHub
ที่มา : PyThaiNLP 2.2 : PyThaiNLP GitHub