Google обновил код парсера robots.txt с открытым исходным кодом на GitHub в другой день. Гэри Иллис из Google вчера утром отправил обновление в репозиторий. Google первоначально выпустил парсер еще в 2019 году.
Гэри Иллес объяснил LinkedIn что этот обновленный парсер уже некоторое время используется Google, но теперь Google выпустил это обновление на GitHub.
Гэри написал: «В этом выпуске представлены новые возможности класса синтаксического анализатора, которые позволяют экспортировать информацию о синтаксическом анализе переданного тела robotstxt, а также добавлена новая библиотека для доступа к этой информации. Эта новая библиотека уже много лет используется консолью поиска Google. сейчас (в сочетании с портом Java) и до сих пор мы не столкнулись с проблемами, если вы это сделаете, сообщите о проблеме на GitHub!»
Когда Google впервые выпустил этот парсер, Google написал, что «открыл исходный код библиотеки C++, которую наши производственные системы используют для анализа и сопоставления правил в файлах robots.txt. Эта библиотека существует уже 20 лет и содержит фрагменты кода, написанные на 90-е годы. С тех пор библиотека развивалась; мы узнали много нового о том, как веб-мастера пишут файлы robots.txt и исключительные случаи, которые нам приходилось учитывать, и добавляли то, что узнали за эти годы, в интернет-черновик, когда это имело смысл. «
Обсуждение на форуме LinkedIn.