Browsertrix Crawler preserves bounded web evidence as WACZ archives
Source: Webrecorder / Browsertrix Crawler GitHub · latest release v1.12.4, 1 April 2026
What happened
Browsertrix Crawler is a standalone, browser-based high-fidelity crawler designed to run customizable web-archive crawls in a Docker container. The GitHub release page lists v1.12.4 as the latest release, with fixes around collection crawl IDs, WACZ reference handling and seed URL hash handling.
Why it matters
This is useful when one page is not enough: occupation-administration sites, propaganda portals, official claim pages, local authority archives, recruitment pages or small thematic sections can be captured as bounded evidence packages before they are edited or removed.
How to use it
Practical fields: does — browser-based web crawling and WACZ/WARC-style preservation; use case — bounded public-source captures; input — seed URL or crawl configuration; output — crawl collection and WACZ archive; license/pricing — AGPL-3.0, free/open source; original source — Webrecorder GitHub and docs. Use specific release tags in production, define scope before crawling, save the crawl config, record operator/time/source list, hash the archive and keep raw captures separate from working copies.
Limits
This is not a chain-of-custody system by itself. Crawling must stay narrow: do not vacuum private-person data, private groups, credentials or live operational details. Browser state, cookies, logged-in sessions, translation extensions and crawl scope can contaminate evidence faster than a bureaucrat can misplace a goat.
Browsertrix Crawler зберігає обмежені вебмасиви як WACZ-архіви
Джерело: Webrecorder / Browsertrix Crawler GitHub · останній реліз v1.12.4, 1 квітня 2026
Що сталося
Browsertrix Crawler — це автономний browser-based high-fidelity crawler для контрольованого вебархівування в Docker-контейнері. На GitHub останнім стабільним релізом позначено v1.12.4 із виправленнями щодо crawl IDs у колекціях, WACZ-посилань і seed URL із hash-фрагментами.
Чому це важливо
Це потрібно там, де однієї сторінки замало: сайти окупаційних адміністрацій, пропагандистські портали, офіційні заяви, архіви місцевих органів, рекрутингові сторінки або невеликі тематичні розділи можна зберегти як обмежений доказовий пакет до редагування чи видалення.
Як це застосувати
Практичні поля: що робить — browser-based crawl і WACZ/WARC-style збереження; кейс — контрольована фіксація відкритих вебджерел; input — seed URL або crawl config; output — crawl collection і WACZ-архів; ліцензія/ціна — AGPL-3.0, free/open source; першоджерело — Webrecorder GitHub і документація. У продакшені використовуйте конкретний release tag, задавайте scope до запуску, зберігайте config, фіксуйте оператора/час/список URL, хешуйте архів і відділяйте raw capture від робочих копій.
Обмеження
Це не повноцінна chain-of-custody система. Crawl має бути вузьким: не пилососьте приватні дані, закриті групи, credentials або live operational details. Стан браузера, cookies, logged-in sessions, перекладачі й неправильний scope можуть зіпсувати доказ швидше, ніж бюрократ загубить козу.
