Web spider (crawling)

By: kaiaukung on 27 April 2009 - 15:06 Tags:

Forums:

คือพอดีมี project เข้ามาให้ทำครับ อยากทราบว่าถ้าจะเขียน web spider ต้องเริ่มอย่างไรดีครับ พอดีผมมือใหม่ด้าน python มากๆ เลยครับ รบกวนด้วยนะครับ

Hiring! บริษัทที่น่าสนใจ

Token X

Blockchain, ICO, Tokenization, Digital Assets, and Financial Service

LTMH TECH

LTMH TECH มุ่งเน้นการพัฒนาผลิตภัณฑ์ที่สามารถช่วยพันธมิตรของเราให้บรรลุเป้าหมาย

CDG GROUP

Provider of IT solutions to public, state, and private sectors in Thailand for over 56 years

By: ABZee on 28 April 2009 - 06:28 #98527

มีคนเขียนโค้ดให้ใช้ไว้ที่ Link 1
อีกบทความที่น่าสนใจคือ Link 2

LongSpine.com

By: crucifier

on 28 April 2009 - 07:03 #98528 Reply to:98527

อันนี้ใช้ได้เยี่ยมมากๆ ครับ แต่ไม่ฟรีนะ

By: kaiaukung on 28 April 2009 - 12:34 #98545

ขอบคุณมากนะครับ ที่เว็บของ ibm code รันแล้วเกิด error ครับ

By: kittipat

on 7 May 2009 - 08:02 #100213

ลองเข้าไป download lecture notes จาก Text Technologies ดูนะครับ (เป็นวิชาเรียนผมเอง) หรือถ้าอยากได้หนังสือผมแนะนำ "Search Engines: Information Retrieval in Practice"

จริงๆผมมี python web crawler เขียนเองอยู่นะ (การบ้านวิชาที่เรียนนั่นแหละ) แต่ในเมื่อเป็น project ก็ลองทำดูเองก่อนแล้วกันนะครับ

กระบวนการทำงานคร่าวๆของ crawler

ใส่ url เริ่มต้น (ศัพท์เฉพาะเรียกว่า seed) เข้าไปใน frontier queue (ยังนึกคำแปลเพราะๆไม่ออก)
ดึง url ขึ้นมาจาก frontier queue
อ่าน robots.txt ของ host ของ url นั้น
เข้าไปดึง web page มา เก็บ
แกะ link ใน web page ออกมา แล้วก็เช็คกับ robots.txt ว่าเข้าไปอ่านได้หรือเปล่า ถ้าเข้าได้ก็ยัดลงไปใน frontier queue
กลับไปเริ่มที่ 2.

โดยในระหว่างกระบวนการจริงๆแล้วควรมีการเช็คเนื้อหาซ้ำกันด้วย วิธีเช็คเข้าไปอ่านได้ตามเว็บข้างบนนะครับ นอกจากนั้นยังควรจะหน่วงเวลาระหว่างการดึงข้อมูลจากเว็บเดียวกันไว้ด้วย หรือถ้าให้ดีก็สลับเปลี่ยน host ไปเรื่อยๆ แล้วจริงๆข้อ 5. นี่ก็แยกเป็นอีก thread นึงไปก็ได้ครับ

แต่ถ้าไม่ lock spec ว่าต้อง python แนะนำให้ลองดู Lucene ครับ

By: peacedev

on 9 December 2015 - 16:32 #867184

ศึกษา regex ครับ

By: crucifier

on 11 December 2015 - 22:09 #867642 Reply to:867184

ไม่ทันกินหรอกครับ มันไม่ใช่แค่การจัดการข้อมูลที่โหลดมาได้ แต่ต้องจัดการพวก session/cookie และ จัดการข้อมูลที่โยนไปมาเสมือนเป็น browser ตัวหนึ่งด้วย หา library ที่ทำหน้าที่พวกนี้โดยเฉพาะมาใช้เอาสะดวกกว่าครับ

By: peacedev

on 12 December 2015 - 12:50 #867720 Reply to:867642

แต่ผมว่ามันไม่ยากนะ
แค่ Python เองก็มี build-in lib ที่ต้องการอยู่ครบละ
แค่ต้องศึกษาวิธีใช้หน่อย

แค่ตัว build-in ของ Python ก็ทำ Back-End ของ Web-Browser ได้เลย

By: MayArts on 29 August 2017 - 18:08 #1004679 Reply to:867720

Back-end

By: MayArts on 30 August 2017 - 19:30 #1004678

PythonAAA

By: MayArts on 3 September 2017 - 20:10 #1005392

test

By: MayArts on 3 September 2017 - 20:13 #1005393 Reply to:1005392

thanks

By: fezop on 27 August 2021 - 22:49 #1221250

ไม่ใช่แค่เกี่ยวกับการจัดการข้อมูลที่โหลดเท่านั้น Roblox Guides get-mobdrovip.com

Main menu