NVIDIA เปิดตัว Chat with RTX เป็นไคลเอนต์สำหรับรันแช็ทบ็อท Generative AI บนเครื่องพีซีของเราเอง ไม่ต้องพึ่งพาเซิร์ฟเวอร์ภายนอก ช่วยรักษาความเป็นส่วนตัวเรื่องข้อมูลได้ดีกว่าการไปใช้บริการ LLM บนคลาวด์
Chat with RTX เป็นแพลตฟอร์มที่ใช้รันโมเดลภาษาโอเพนซอร์ส (ตอนนี้รองรับ Llama 2 และ Mistral สองตัว) มารันบน Tensor Core ของจีพียู GeForce RTX ซีรีส์ 30 ที่มี VRAM 8GB ขึ้นไป (เบื้องหลังของมันคือ TensorRT-LLM และ RAG on Windows) ตอนนี้ยังรองรับเฉพาะบน Windows 10 และ 11 เท่านั้น
จุดเด่นของ Chat with RTX คือทั้งตัวโมเดล LLM และตัวข้อมูลที่ให้โมเดลอ่านจะอยู่ในเครื่องพีซีเท่านั้น เช่น อ่านจากไฟล์ txt, pdf, doc/docx, xml ในเครื่องเฉพาะโฟลเดอร์ที่กำหนด ป้องกันข้อมูลรั่วไหล แต่ในอีกทางก็ยังสามารถอ้างอิงข้อมูลบนอินเทอร์เน็ต (เช่น ให้ AI ชมวิดีโอบน YouTube ที่ระบุ) ได้ด้วย เช่น สั่งให้สร้างลิสต์สถานที่ท่องเที่ยวแนะนำ จากคลิปที่สนใจ หรือ สร้าง how-to จากแหล่งข้อมูลบนอิทเทอร์เน็๖
NVIDIA บอกว่า Chat with RTX มีสถานะเป็น tech demo และยังไม่ระบุว่าจะผลักดันต่อในระยะยาวหรือไม่ แต่อย่างน้อยก็เป็นตัวอย่างให้เห็นว่า แช็ทบ็อท AI ที่รันแบบโลคัลนั้นสามารถทำได้แล้ว หากสนใจสามารถดาวน์โหลดได้ที่นี่
ทั้งนี้นักพัฒนายังสามารถเขียนแอปจาก RAG on Windows ที่รันด้วย TensorRT-LLM แบบเดียวกันนี้ได้ด้วยเช่นกันจาก GitHub
ที่มา - NVIDIA
Comments
น่าจะตัว 7B เพราะเคยรัน 70Bละ VRam การ์ดจอไม่พอ
ถ้าจะรันmodelระดับ10B+บนเครื่อง ตัวเลือกดีสุดตอนนี้น่าจะ MacbookPro Max ที่ยัดRAM 128GB
เรามองขาดตั้งแต่ท้ายปีแล้ว เพราะมี Private GPT ตั้งแต่ ธันวาปีที่แล้ว แต่ทาง Business ไม่มีเครื่องใหนที่เป็นแบบ Coperate จะสั่งซื้อได้เลย (เครื่องเล่นเกมส์มี RTX, Mac Pro) ใกล้เคียงที่สุดคือ Workstation ออกแบบ (ซึ่งแพงมักๆ)
ปล. ทำก่อนได้ก่อน ก็ต้องหักกัน เอา PC เล่นเกมส์ของพนักงานซักคนมาตั้งใช้ไปก่อน ไม่งั้นก็ประกอบ PC ซักเครื่องใส่ 3070 ti ลงไป ถูกกว่า 40xx บานเลย
เอาจริง ๆ ผมรู้สึกว่า Chatbot มัน ... ไม่ต้องเร็วขนาดนั้นก็ได้มั้ง เมื่อเทียบกับ Image Generation
อย่างผมลอง model ขนาด 7B ถามมันไป มันก็รันบนซีพียู (แถมใช้แค่ 4 thread อีกต่างหาก บนเครื่อง 16 thread) มันก็ตอบเสร็จภายใน 20 วินาทีนะ (ลองบน LM Studio)
หรือแบบโมเดล 20B (emerhyst-20b.Q2_K.gguf) ก็ประมาณ 2 นาทีครึ่งแหละ อันนี้น่าจะเริ่มช้าละ คิดว่ารันบนซีพียูทั้งหมดเหมือนกัน เพราะ VRAM ผมไม่พอแน่ ๆ (10GB กว่าๆ)
คำถามตั้งให้เข้ากับธีมวันนี้พอดี (ฮา) คำตอบเลยอีโรติกนิดนึง