Trình thu thập thông tin web – Crawler website (còn được biết đến với các thuật ngữ khác như automatic indexers, bots, web spiders, web robots hoặc web scutters) là một chương trình tự động, hoặc tập lệnh, có phương pháp quét hoặc “thu thập dữ liệu” thông qua các trang web để tạo ra một chỉ mục dữ liệu nó được thiết lập để tìm kiếm. Quá trình này được gọi là Thu thập thông tin web hoặc spidering. Có nhiều cách sử dụng khác nhau dành cho trình thu thập thông tin web, nhưng về cơ bản trình thu thập thông tin web được sử dụng để thu thập / khai thác dữ liệu từ Internet. Hầu hết các công cụ tìm kiếm sử dụng nó như là một phương tiện cung cấp dữ liệu cập nhật và để tìm thấy những gì mới trên Internet. Các công ty Analytics và các nhà nghiên cứu thị trường sử dụng trình thu thập thông tin web để xác định xu hướng khách hàng và thị trường trong một địa lý nhất định. Trong bài này, chúng tôi giới thiệu hơn 50 open source trình thu thập dữ liệu webvhàng đầu trên web để khai thác dữ liệu. Tên Language Platform Heritrix Java Linux Nutch Java Cross-platform Scrapy Python Cross-platform DataparkSearch C++ Cross-platform GNU Wget C Linux GRUB C#, C, Python, Perl Cross-platform PHP Simple HTML DOM Parser PHP Cross-platform HTTrack C/C++ Cross-platform MechanicalSoup python Cross-platform mnoGoSearch C Windows Norconex HTTP Collector Java Cross-platform Open Source Server C/C++, Java PHP Cross-platform PHP-Crawler PHP Cross-platform YaCy Java Cross-platform WebSPHINX Java Cross-platform WebLech Java Cross-platform Arale Java Cross-platform JSpider Java Cross-platform HyperSpider Java Cross-platform Arachnid Java Cross-platform Spindle Java Cross-platform Spider Java Cross-platform LARM Java Cross-platform Metis Java Cross-platform SimpleSpider Java Cross-platform Grunk Java Cross-platform CAPEK Java Cross-platform Aperture Java Cross-platform Smart and Simple Web Crawler Java Cross-platform Web Harvest Java Cross-platform Aspseek C++ Linux Bixo Java Cross-platform crawler4j Java Cross-platform Ebot Erland Linux Hounder Java Cross-platform Hyper Estraier C/C++ Cross-platform OpenWebSpider C#, PHP Cross-platform Pavuk C Lunix Sphider PHP Cross-platform Xapian C++ Cross-platform Arachnode.net C# Windows Crawwwler C++ Java Distributed Web Crawler C, Java, Python Cross-platform iCrawler Java Cross-platform pycreep Java Cross-platform Opese C++ Linux Andjing Java Ccrawler C# Windows WebEater Java Cross-platform JoBo Java Cross-platform Khác: Cola describes itself as a “high-level distributed crawling framework” that might meet your needs if you’re looking for a Python 2 approach, but note that it has not been updated in over two years. Demiurge, which supports both Python 2 and Python 3, is another potential candidate to look at, although development on this project is relatively quiet as well. Feedparser might be a helpful project to check out if the data you are trying to parse resides primarily in RSS or Atom feeds. Lassie makes it easy to retrieve basic content like a description, title, keywords, or a list of images from a webpage. RoboBrowser is another simple library for Python 2 or 3 with basic functionality, including button-clicking and form-filling. Though it hasn’t been updated in a while, it’s still a reasonable choice.