De New York Times probeerde een webcrawler te blokkeren die was aangesloten bij het beroemde Internet Archive, een project waarvan de eenvoudig te gebruiken vergelijkingen van artikelversies soms tot schaamte voor de krant hebben geleid.

In 2021 voegde de New York Times ‘ia_archiver’ – een bot die in het verleden enorme aantallen websites voor het internetarchief heeft vastgelegd – toe aan een lijst die bepaalde crawlers instrueert om buiten de website te blijven.

Crawlers zijn programma’s die als geautomatiseerde bots werken om websites te doorzoeken, gegevens te verzamelen en terug te sturen naar een opslagplaats, een proces dat bekend staat als scraping. Dergelijke bots zijn de drijvende kracht achter zoekmachines en de Wayback Machine van het Internet Archive, een dienst die het archiveren en bekijken van historische versies van websites vanaf 1996 mogelijk maakt.

De New York Times heeft in het verleden te maken gekregen met publieke kritiek op enkele van zijn stealth-bewerkingen.

De Wayback Machine van het Internetarchief wordt al lang gebruikt om webpagina’s te vergelijken terwijl ze in de loop van de tijd worden bijgewerkt, waarbij de verschillen tussen twee iteraties van een bepaalde pagina duidelijk worden afgebakend. Enkele jaren geleden heeft het archief een functie toegevoegd met de naam “Wijzigingen” waarmee gebruikers twee gearchiveerde versies van een website van verschillende datums of tijden op één scherm kunnen vergelijken. De tool kan worden gebruikt om wijzigingen in nieuwsberichten bloot te leggen die zonder begeleidende redactionele aantekeningen zijn gemaakt, zogenaamde stealth-bewerkingen.

The Times heeft in het verleden te maken gehad met publieke kritiek op enkele van zijn stealth-bewerkingen. Bij een berucht incident uit 2016 herzag de krant een artikel over de toenmalige Democratische presidentskandidaat senator Bernie Sanders, I-Vt., na publicatie zo drastisch – waarbij de toon veranderde van lof naar scepsis – dat er een ronde van kritiek op volgde. smaad van andere media en van de eigen openbare redacteur van de Times. De blogger die als eerste de herzieningen opmerkte en de vuurstorm veroorzaakte, demonstreerde de veranderingen met behulp van de Wayback Machine.

Meer recentelijk heeft de Times stealth een artikel geredigeerd waarin oorspronkelijk ‘de dood’ werd genoemd als een van de zes manieren waarop ‘je nog steeds je federale studieschuld kunt kwijtschelden’. Na de bewerking werd de titel van de sectie ‘Overlijden’ gewijzigd in een meer ondoorzichtige kop: ‘De schulden zullen niet voortduren’.

Een dienst genaamd NewsDiffs – die een soortgelijke vergelijkende dienst levert, maar zich richt op nieuwsuitzendingen zoals de New York Times, CNN, de Washington Post en anderen – heeft ook een lange lijst met belangrijke voorbeelden opgetekend van artikelen die stealth-bewerkingen hebben ondergaan. het lijkt erop dat de service al enkele jaren niet meer is bijgewerkt.

De New York Times weigerde commentaar te geven op de reden waarom het de ia_archiver-bot verhindert zijn website te crawlen.

Robots.txt-bestanden

Het mechanisme dat websites gebruiken om bepaalde crawlers te blokkeren is een robots.txt-bestand. Als website-eigenaren willen dat een bepaalde zoekmachine of andere geautomatiseerde bot hun website niet scant, kunnen ze de naam van de crawler aan het bestand toevoegen, dat de website-eigenaar vervolgens naar hun site uploadt, waar deze voor het publiek toegankelijk is.

Gebaseerd op een webstandaard die bekend staat als het Robots Exclusion Protocol, kunnen site-eigenaren met een robots.txt-bestand opgeven of ze een bot een deel van hun website of hun hele website willen laten crawlen. Hoewel bots er altijd voor kunnen kiezen de aanwezigheid van het bestand te negeren, respecteren veel crawlerservices de verzoeken.

Het huidige robots.txt-bestand op de website van de New York Times bevat een instructie om alle sitetoegang tot de ia_archiver-bot te weigeren.

De relatie tussen ia_archiver en het internetarchief is niet helemaal eenvoudig. Terwijl het internetarchief zelf het internet doorzoekt, ontvangt het ook gegevens van andere entiteiten. Ia_archiver was ruim tien jaar lang een productieve leverancier van websitegegevens aan het archief.

De bot was eigendom van Alexa Internet, een bedrijf dat webverkeer analyseert, mede opgericht door Brewster Kahle, die direct na Alexa het internetarchief creëerde. Alexa Internet werd in 1999 door Amazon overgenomen – de handelsmerknaam werd later gebruikt voor de kenmerkende stemgestuurde assistent van Amazon – en ging uiteindelijk in 2022 verloren.

Gedurende zijn bestaan ​​was Alexa Internet nauw verweven met het internetarchief. Van 1996 tot eind 2020 ontving het internetarchief ruim 3 petabytes – ruim 3.000 terabytes – aan gecrawlde websitegegevens van Alexa. Zijn rol bij het helpen vullen van het archief met materiaal bracht gebruikers ertoe er bij website-eigenaren op aan te dringen ia_archiver niet te blokkeren onder de verkeerde opvatting dat het geen verband hield met het internetarchief.

Nog in 2015 bood de Wayback Machine instructies om te voorkomen dat een site in de Wayback Machine wordt opgenomen – door het robots.txt-bestand van de site te gebruiken. Nieuwswebsites zoals de Washington Post profiteerden hiervan ten volle en stonden de ia_archiver-bot niet toe.

In 2017 kondigde het internetarchief echter zijn voornemen aan om zich niet langer te houden aan de dictaten van de robots.txt van een site. Hoewel het internetarchief robots.txt al negeerde voor militaire en overheidssites, breidde de nieuwe update de stap uit om robots.txt voor alle sites te negeren. In plaats daarvan kunnen website-eigenaren per e-mail handmatige uitsluitingsverzoeken indienen.

Reputatiemanagementbedrijven zijn zich bijvoorbeeld terdege bewust van de verandering. Ook de New York Times lijkt het meer selectieve handmatige uitsluitingsproces te hebben gemobiliseerd, aangezien bepaalde Times-verhalen niet beschikbaar zijn via de Wayback Machine.

Sommige nieuwssites, zoals de Washington Post, hebben sindsdien ia_archiver uit hun lijst met geblokkeerde crawlers verwijderd. Terwijl andere websites hun ia_archiver-blokken verwijderden, besloot de New York Times in 2021 deze toe te voegen.




Bron: theintercept.com



Laat een antwoord achter