ОТРИМАННЯ ДАНИХ З ВЕБСАЙТІВ НА ПРИКЛАДІ РОЗРОБКИ ПЛАГІНУ ДЛЯ ВЕБСКРАПІНГУ
Ключові слова:
веб-збирання, видобування даних, вебсайтАнотація
Пошук в Інтернет передбачає не лише ознайомлення з тією чи іншою інформацією з метою отримання нових знань, а й порівняння, аналіз та узагальнення даних, які знаходяться на різних вебсайтах та сторінках. Вирішенням цієї проблеми може бути монотонне ручне копіювання потрібної інформації у власні файли та форматування їх відповідно до потреб. Такий процес є неефективним, оскільки вимагає багато часу.
Вебскрайпінг – це автоматизований процес отримання великого обсягу даних із вебсайтів та перетворення їх в структуровані дані. Програми, які здійснюють такий процес, називаються вебскраперами і здатні отримувати потрібний вміст HTML, працювати з JavaScript, фільтрувати отримані дані та виводити їх у формі готових баз даних, таблиць Excel, файлів CSV або окремих API тощо.
Представлений варіант реалізації плагіну для вебскрапінгу для браузерів типу Chromium. Плагін складається з клієнтської та серверної частини. Клієнтська частина передбачає проєктування та створення графічної складової, а саме: спливаючого вікна плагіну та можливості візуального виділення елементів вебсторінки при наведенні на них курсора миші. Серверна частина плагіну виконує аналіз запитів, генерацію покликань та здійснює вибірку елементів.
Посилання (Бібліографія)
Introduction to Web Scraping - GeeksforGeeks. GeeksforGeeks. URL: https://www.geeksforgeeks.org/introduction-to-web-scraping/?ref=rp (date of access: 29.03.2023).
Що таке веб-скрейпінг і як він пов’язаний з проксі. Enterprise data gathering infrastructure | ASTROPROXY. URL: https://astroproxy.com/ua/blog/shho-take-veb-skreiping-i-yak-vin-povyazanii-z-proksi (дата звернення: 29.03.2023).
Web Scraping. Techopedia. URL: https://www.techopedia.com/definition/5212/web-scraping (date of access: 29.03.2023).
What is Web Scraping and How to Use It? - GeeksforGeeks. GeeksforGeeks. URL: https://www.geeksforgeeks.org/what-is-web-scraping-and-how-to-use-it/ (date of access: 29.03.2023).
ScrapingBot • Web Scraping API - Extract HTML content. Scraping-bot.io. URL: https://www.scraping-bot.io/ (date of access: 29.03.2023).
Web Scraping Tool & Free Web Crawlers | Octoparse. Web Scraping Tool & Free Web Crawlers | Octoparse. URL: https://www.octoparse.com/ (date of access: 29.03.2023).
Chrome Extensions architecture overview - Chrome Developers. Chrome Developers. URL: https://developer.chrome.com/docs/extensions/mv3/architecture-overview/ (date of access: 29.03.2023).
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2023 Ю.С. Павленко, Г.В. Пелех
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial 4.0 International License.