คือพอดีมี project เข้ามาให้ทำครับ อยากทราบว่าถ้าจะเขียน web spider ต้องเริ่มอย่างไรดีครับ พอดีผมมือใหม่ด้าน python มากๆ เลยครับ รบกวนด้วยนะครับ
มีคนเขียนโค้ดให้ใช้ไว้ที่ Link 1 อีกบทความที่น่าสนใจคือ Link 2
LongSpine.com
อันนี้ใช้ได้เยี่ยมมากๆ ครับ แต่ไม่ฟรีนะ
ขอบคุณมากนะครับ ที่เว็บของ ibm code รันแล้วเกิด error ครับ
ลองเข้าไป download lecture notes จาก Text Technologies ดูนะครับ (เป็นวิชาเรียนผมเอง) หรือถ้าอยากได้หนังสือผมแนะนำ "Search Engines: Information Retrieval in Practice"
จริงๆผมมี python web crawler เขียนเองอยู่นะ (การบ้านวิชาที่เรียนนั่นแหละ) แต่ในเมื่อเป็น project ก็ลองทำดูเองก่อนแล้วกันนะครับ
กระบวนการทำงานคร่าวๆของ crawler
โดยในระหว่างกระบวนการจริงๆแล้วควรมีการเช็คเนื้อหาซ้ำกันด้วย วิธีเช็คเข้าไปอ่านได้ตามเว็บข้างบนนะครับ นอกจากนั้นยังควรจะหน่วงเวลาระหว่างการดึงข้อมูลจากเว็บเดียวกันไว้ด้วย หรือถ้าให้ดีก็สลับเปลี่ยน host ไปเรื่อยๆ แล้วจริงๆข้อ 5. นี่ก็แยกเป็นอีก thread นึงไปก็ได้ครับ
แต่ถ้าไม่ lock spec ว่าต้อง python แนะนำให้ลองดู Lucene ครับ
ศึกษา regex ครับ
ไม่ทันกินหรอกครับ มันไม่ใช่แค่การจัดการข้อมูลที่โหลดมาได้ แต่ต้องจัดการพวก session/cookie และ จัดการข้อมูลที่โยนไปมาเสมือนเป็น browser ตัวหนึ่งด้วย หา library ที่ทำหน้าที่พวกนี้โดยเฉพาะมาใช้เอาสะดวกกว่าครับ
แต่ผมว่ามันไม่ยากนะ แค่ Python เองก็มี build-in lib ที่ต้องการอยู่ครบละ แค่ต้องศึกษาวิธีใช้หน่อย
แค่ตัว build-in ของ Python ก็ทำ Back-End ของ Web-Browser ได้เลย
Back-end
PythonAAA
test
thanks
ไม่ใช่แค่เกี่ยวกับการจัดการข้อมูลที่โหลดเท่านั้น Roblox Guides get-mobdrovip.com
มีคนเขียนโค้ดให้ใช้ไว้ที่ Link 1
อีกบทความที่น่าสนใจคือ Link 2
LongSpine.com
อันนี้ใช้ได้เยี่ยมมากๆ ครับ แต่ไม่ฟรีนะ
ขอบคุณมากนะครับ ที่เว็บของ ibm code รันแล้วเกิด error ครับ
ลองเข้าไป download lecture notes จาก Text Technologies ดูนะครับ (เป็นวิชาเรียนผมเอง) หรือถ้าอยากได้หนังสือผมแนะนำ "Search Engines: Information Retrieval in Practice"
จริงๆผมมี python web crawler เขียนเองอยู่นะ (การบ้านวิชาที่เรียนนั่นแหละ) แต่ในเมื่อเป็น project ก็ลองทำดูเองก่อนแล้วกันนะครับ
กระบวนการทำงานคร่าวๆของ crawler
โดยในระหว่างกระบวนการจริงๆแล้วควรมีการเช็คเนื้อหาซ้ำกันด้วย วิธีเช็คเข้าไปอ่านได้ตามเว็บข้างบนนะครับ นอกจากนั้นยังควรจะหน่วงเวลาระหว่างการดึงข้อมูลจากเว็บเดียวกันไว้ด้วย หรือถ้าให้ดีก็สลับเปลี่ยน host ไปเรื่อยๆ แล้วจริงๆข้อ 5. นี่ก็แยกเป็นอีก thread นึงไปก็ได้ครับ
แต่ถ้าไม่ lock spec ว่าต้อง python แนะนำให้ลองดู Lucene ครับ
ศึกษา regex ครับ
ไม่ทันกินหรอกครับ มันไม่ใช่แค่การจัดการข้อมูลที่โหลดมาได้ แต่ต้องจัดการพวก session/cookie และ จัดการข้อมูลที่โยนไปมาเสมือนเป็น browser ตัวหนึ่งด้วย หา library ที่ทำหน้าที่พวกนี้โดยเฉพาะมาใช้เอาสะดวกกว่าครับ
แต่ผมว่ามันไม่ยากนะ
แค่ Python เองก็มี build-in lib ที่ต้องการอยู่ครบละ
แค่ต้องศึกษาวิธีใช้หน่อย
แค่ตัว build-in ของ Python ก็ทำ Back-End ของ Web-Browser ได้เลย
Back-end
PythonAAA
test
thanks
ไม่ใช่แค่เกี่ยวกับการจัดการข้อมูลที่โหลดเท่านั้น Roblox Guides get-mobdrovip.com