http://www.projecka.com/THSplitLib/
ตอนนี้พึ่งพัฒนานะครับ ยังใช้ dictionary อยู่ ยังไงลองเข้าไปเทสได้ครับ มี บัคอะไร ขอรูปประโยคด้วยครับ
พอดีผมไม่เห็นมีคนทำ (คนไทยนะ+PHP ด้วย) เลย อยากทำไว้ เผื่อใช้งานครับผม
ไว้ จะพัฒนาเรื่อยๆ ครับ พึ่งลองทำวันแรกครับ ยังตัดโดยใช้ Dictionary อยู่ แบบ Maximum Length ครับ อาจจะมีพังๆ ไม่เนียน บ้างอะไรบ้าง ยังไงรายละเอียดอ่านด้านในครับ
ถ้ามีเวลาก็น่าจะลองเอาผลเทียบกับ swath ดู
ผมว่างานประมวลผลระดับนี้ ใช้ Native อย่าง C/C++ น่าจะเหมาะกว่านะคับ
อันนั้นมีอย่าง Swath แล้ว ครับ ผมเลย อยากลองพวก Web App มากกว่า รู้สึกว่า คนที่ใช้พวก Shared Host ต่างๆ เขาไม่มีครับผม เลย อยากให้ คนที่ใช้งาน PHP แล้วไม่มีความรู้เรื่อง C/C++ ได้ใช้งานครับ
แน่นอน Perfomance ต่างกันเยอะครับ
Swath -> กิน Memory ประมาณ 300+ KB
ส่วนตัวนี้ -> กินประมาณ 5-6 MB ครับ (อาจจะเป็นเพราะมัน ยัด Dictionary ลง Memory (Array) ทั้งดุ้นเลยครับ) แลกกับความเร็วแล้วกัน แฮะๆ
ส่วนความเร็ว พอๆ กันครับ อันนี้ไม่ได้วัด CPU นะครับ เพราะไม่ได้วัด 55+
ทั้งนี้ทั้งนั้น มันเป็นการตัดคำจากพื้นฐานคือ Dictionary อาจจะเร็วแต่ว่ายังผิดอยู่ครับ เพราะ ว่า คำบางคำมันก็ไม่มีอยู่ในพจนานุกรม แต่ ถ้า ทำแบบ Natural Lang อาจจะกิน Mem และ ช้าลงครับ แต่ แลกมาด้วยความถูกต้องมากขึ้นครับ
แพลนตอนนี้คือ
1. สร้าง Dic เพิ่มไปเรื่อยๆ ตามคำสมัยนิยม ต่างๆ เอาให้ครบคำหลัก ทุกๆวงการ (ผมก็เอาข่าวจากในนี้ไปหาคำเหมือนกันครับ)
2. สร้าง Algo ตัดคำสำหรับที่ไม่เจอใน Dic ครับพวกพื้นฐานทั่วไปครับ
"อภิมหาความอลังการงานสร้าง"
bug นะครับ ตัดผิดนิดหน่อย
ผมว่ามันจะเป็นเรื่องการใช้คำผิดมากกว่า อ่านเองยังรู้สึกสะดุดเลย
"อภิมหา" นี้เป็นคำคุณศัพท์ เอาไปใช้ก่อนคำว่า "ความ" มันดูแปลกๆ นะครับ ผมเคยเจอแค่คนใช้ว่า "อภิมหาอลังการงานสร้าง"
มันไม่ง่ายเลยที่จะทำ GIF ให้มีขนาดน้อยกว่า 20kB
คำคลาสสิค - ตากลม (ตา-กลม, ตาก-ลม)
ลายเซ็นยาวเกินไปครับ
แจ่มมากครับ แต่ถ้าตัว Dict นี้ ถ้านำไปประยุกต์ บน DB ก็ จะประหยัด memory ได้เยอะนะครับ ตัวนี้ น่าจะเหมาะกับการทำงาน ง่ายๆ สั้นๆ ไม่หวังผลถูกต้องมากนัก แต่ถือว่าเยี่ยมครับ สำหรับ สิ่งที่ทำครับ เอาใจช่วยครับ
อยากลองเอาไปไว้บน DB เหมือนกันครับ อาจจะทำ ทั้ง 2 Version ทั้ง Local Dictionary, DB ครับ
แต่ว่า ถ้ามีการอัพเดท Dictionary ในฐานข้อมูลก็อาจจะขอกลับมาที่ Project หลัก เพื่อ ให้คนอื่นได้ใช้ด้วยครับผม
เยี่ยมครับ ผมคิดว่า นำไปต่อยอดได้อีกเยอะครับ
ขอชมหน่อยครับ น้องเยี่ยมมากครับ .. ถ้าประเทศไทยเรามีค่านิยมแบบนี้ เราก้าวได้ไวครับ ^^
ผมว่าตัวดิกน่าลองซอยนะครับ เช่น แยกตามตัวแรก คำไหนขึ้นต้นด้วย ก ก็แยกไปไฟล์หนึ่ง เวลาจากเรียกไฟล์มาอ่านใส่ Array ก็เรียกแค่ไฟล์ที่มีคำ ก นำหน้าก็พอ ผมว่าน่าลดการรับประทานแรมไปได้ด้วยนะครับ
แต่เอาจริงๆ มันก็ต้องเลือกครับถ้าให้กินแรมลดลง ก็ต้องมาอ่านข้อมูลจาก HDD ถี่ขึ้น -
ปล. สนใจเอาลง Github ไหมครับ
ปล2. เจอคำที่อาจตัดผิด "ทั้งนี้ทั้งนั้น" น่าเพิ่มคำว่า ทั้งนี้ ลงดิกก็น่าจะตัดได้นะครับ
มันไม่ง่ายเลยที่จะทำ GIF ให้มีขนาดน้อยกว่า 20kB
ผมหนะ สนใจ ใน Github ครับ แต่เอาตรงๆ ฮะ ผมไม่เคยใช้ Git ครับ แล้วก็กำลังงงๆ กับการทำงานร่วมกัน (Collaborate) ใน Git ด้วยครับ มีข้อเสนอแนะไหมครับ?
ผมก็อยากหาคนทำต่อเหมือนกันครับผมไม่งั้นจะช้าไปนิดนึง
ทีมที่อยากได้คือ
1. คนทำตัว Core Segment ทั้งในเรื่องปรับปรุงความเร็ว, เสถียร, การตัดคำต่างๆ
2. คนทำตัว Dictionary ครับ เพราะเดี๋ยวนี้มีคำศัพย์ใหม่ๆ เยอะครับ
ยังไงชี้แนะด้วยครับผม
ขอบคุณครับ
ลิง
แจ่มฮะแต่ CC BY-NC แบบนี้ก็ไม่กล้าเอาไปใช้ฮะ
นั่นสิครับ
เดี๋ยวผมเอาออกให้แล้วกันครับ :) ผมทำไปเรื่อยๆ ครับผม