Tags:
Forums: 

http://www.projecka.com/THSplitLib/

ตอนนี้พึ่งพัฒนานะครับ ยังใช้ dictionary อยู่ ยังไงลองเข้าไปเทสได้ครับ มี บัคอะไร ขอรูปประโยคด้วยครับ

พอดีผมไม่เห็นมีคนทำ (คนไทยนะ+PHP ด้วย) เลย อยากทำไว้ เผื่อใช้งานครับผม

ไว้ จะพัฒนาเรื่อยๆ ครับ พึ่งลองทำวันแรกครับ ยังตัดโดยใช้ Dictionary อยู่ แบบ Maximum Length ครับ อาจจะมีพังๆ ไม่เนียน บ้างอะไรบ้าง ยังไงรายละเอียดอ่านด้านในครับ

Get latest news from Blognone
By: hiddenmin
AndroidUbuntuWindows
on 30 January 2012 - 15:35 #378314
hiddenmin's picture

ถ้ามีเวลาก็น่าจะลองเอาผลเทียบกับ swath ดู

By: UltimaWeapon
Windows PhoneRed HatWindowsIn Love
on 30 January 2012 - 21:04 #378372
UltimaWeapon's picture

ผมว่างานประมวลผลระดับนี้ ใช้ Native อย่าง C/C++ น่าจะเหมาะกว่านะคับ

By: moohooooo on 31 January 2012 - 05:39 #378497 Reply to:378372

อันนั้นมีอย่าง Swath แล้ว ครับ ผมเลย อยากลองพวก Web App มากกว่า รู้สึกว่า คนที่ใช้พวก Shared Host ต่างๆ เขาไม่มีครับผม เลย อยากให้ คนที่ใช้งาน PHP แล้วไม่มีความรู้เรื่อง C/C++ ได้ใช้งานครับ

แน่นอน Perfomance ต่างกันเยอะครับ
Swath -> กิน Memory ประมาณ 300+ KB
ส่วนตัวนี้ -> กินประมาณ 5-6 MB ครับ (อาจจะเป็นเพราะมัน ยัด Dictionary ลง Memory (Array) ทั้งดุ้นเลยครับ) แลกกับความเร็วแล้วกัน แฮะๆ

ส่วนความเร็ว พอๆ กันครับ อันนี้ไม่ได้วัด CPU นะครับ เพราะไม่ได้วัด 55+

ทั้งนี้ทั้งนั้น มันเป็นการตัดคำจากพื้นฐานคือ Dictionary อาจจะเร็วแต่ว่ายังผิดอยู่ครับ เพราะ ว่า คำบางคำมันก็ไม่มีอยู่ในพจนานุกรม แต่ ถ้า ทำแบบ Natural Lang อาจจะกิน Mem และ ช้าลงครับ แต่ แลกมาด้วยความถูกต้องมากขึ้นครับ

แพลนตอนนี้คือ
1. สร้าง Dic เพิ่มไปเรื่อยๆ ตามคำสมัยนิยม ต่างๆ เอาให้ครบคำหลัก ทุกๆวงการ (ผมก็เอาข่าวจากในนี้ไปหาคำเหมือนกันครับ)
2. สร้าง Algo ตัดคำสำหรับที่ไม่เจอใน Dic ครับพวกพื้นฐานทั่วไปครับ

By: mix5003
AndroidUbuntuWindows
on 30 January 2012 - 23:50 #378419

"อภิมหาความอลังการงานสร้าง"

bug นะครับ ตัดผิดนิดหน่อย

By: EThaiZone
ContributorAndroidUbuntuWindows
on 31 January 2012 - 14:54 #378706 Reply to:378419
EThaiZone's picture

ผมว่ามันจะเป็นเรื่องการใช้คำผิดมากกว่า อ่านเองยังรู้สึกสะดุดเลย

"อภิมหา" นี้เป็นคำคุณศัพท์ เอาไปใช้ก่อนคำว่า "ความ" มันดูแปลกๆ นะครับ ผมเคยเจอแค่คนใช้ว่า "อภิมหาอลังการงานสร้าง"


มันไม่ง่ายเลยที่จะทำ GIF ให้มีขนาดน้อยกว่า 20kB

By: KavkaZ
ContributorAndroidUbuntuWindows
on 31 January 2012 - 07:26 #378498
KavkaZ's picture

คำคลาสสิค - ตากลม (ตา-กลม, ตาก-ลม)


ลายเซ็นยาวเกินไปครับ

By: apkp
iPhoneAndroidUbuntu
on 31 January 2012 - 12:13 #378590

แจ่มมากครับ แต่ถ้าตัว Dict นี้ ถ้านำไปประยุกต์ บน DB ก็ จะประหยัด memory ได้เยอะนะครับ ตัวนี้ น่าจะเหมาะกับการทำงาน ง่ายๆ สั้นๆ ไม่หวังผลถูกต้องมากนัก แต่ถือว่าเยี่ยมครับ สำหรับ สิ่งที่ทำครับ เอาใจช่วยครับ

By: moohooooo on 1 February 2012 - 12:26 #379085 Reply to:378590

อยากลองเอาไปไว้บน DB เหมือนกันครับ อาจจะทำ ทั้ง 2 Version ทั้ง Local Dictionary, DB ครับ

แต่ว่า ถ้ามีการอัพเดท Dictionary ในฐานข้อมูลก็อาจจะขอกลับมาที่ Project หลัก เพื่อ ให้คนอื่นได้ใช้ด้วยครับผม

By: risc on 31 January 2012 - 12:15 #378591

เยี่ยมครับ ผมคิดว่า นำไปต่อยอดได้อีกเยอะครับ

By: Invisible Force
ContributoriPhoneAndroidUbuntu
on 31 January 2012 - 13:23 #378629
Invisible Force's picture

ขอชมหน่อยครับ น้องเยี่ยมมากครับ .. ถ้าประเทศไทยเรามีค่านิยมแบบนี้ เราก้าวได้ไวครับ ^^

By: EThaiZone
ContributorAndroidUbuntuWindows
on 31 January 2012 - 14:58 #378703
EThaiZone's picture

ผมว่าตัวดิกน่าลองซอยนะครับ เช่น แยกตามตัวแรก คำไหนขึ้นต้นด้วย ก ก็แยกไปไฟล์หนึ่ง เวลาจากเรียกไฟล์มาอ่านใส่ Array ก็เรียกแค่ไฟล์ที่มีคำ ก นำหน้าก็พอ ผมว่าน่าลดการรับประทานแรมไปได้ด้วยนะครับ

แต่เอาจริงๆ มันก็ต้องเลือกครับถ้าให้กินแรมลดลง ก็ต้องมาอ่านข้อมูลจาก HDD ถี่ขึ้น -

ปล. สนใจเอาลง Github ไหมครับ

ปล2. เจอคำที่อาจตัดผิด "ทั้งนี้ทั้งนั้น" น่าเพิ่มคำว่า ทั้งนี้ ลงดิกก็น่าจะตัดได้นะครับ


มันไม่ง่ายเลยที่จะทำ GIF ให้มีขนาดน้อยกว่า 20kB

By: moohooooo on 1 February 2012 - 12:25 #379082 Reply to:378703

ผมหนะ สนใจ ใน Github ครับ แต่เอาตรงๆ ฮะ ผมไม่เคยใช้ Git ครับ แล้วก็กำลังงงๆ กับการทำงานร่วมกัน (Collaborate) ใน Git ด้วยครับ มีข้อเสนอแนะไหมครับ?

ผมก็อยากหาคนทำต่อเหมือนกันครับผมไม่งั้นจะช้าไปนิดนึง

ทีมที่อยากได้คือ
1. คนทำตัว Core Segment ทั้งในเรื่องปรับปรุงความเร็ว, เสถียร, การตัดคำต่างๆ
2. คนทำตัว Dictionary ครับ เพราะเดี๋ยวนี้มีคำศัพย์ใหม่ๆ เยอะครับ

ยังไงชี้แนะด้วยครับผม

ขอบคุณครับ
ลิง

By: dearteno
AndroidBlackberryWindowsIn Love
on 31 January 2012 - 18:38 #378771
dearteno's picture

แจ่มฮะแต่ CC BY-NC แบบนี้ก็ไม่กล้าเอาไปใช้ฮะ

By: AMp
In Love
on 1 February 2012 - 00:00 #378872 Reply to:378771

นั่นสิครับ

By: moohooooo on 1 February 2012 - 12:19 #379079 Reply to:378771

เดี๋ยวผมเอาออกให้แล้วกันครับ :) ผมทำไปเรื่อยๆ ครับผม