Digital archive - Claude skills for journalism

When to use

OCR pipeline for newspapers, web scraping for articles, social media transcripts. Unified schema with 35+ fields.

Taxonomy-based classification with Gemini API. Thematic categories, key concepts, tags, eras, and scope types.

Extract Person, Organization, Work, Concept, Event, Location entities. Build relationship graphs with deduplication.

WCAG 2.1 accessible PDFs with ReportLab. Metadata, summaries, and full text for archival preservation.

Required/critical/optional field validation. Hallucination detection for AI responses. Quality scoring.

JSON/CSV exports for frontend consumption. Entity and relationship data for visualization and search.

Type	ID prefix	Examples
Person	P-0001	Journalists, politicians, academics, media figures
Organization	O-0001	News outlets, media companies, academic institutions
Work	W-0001	Articles, books, blog posts, studies, reports
Concept	C-0001	Journalism theories, media criticism frameworks
Event	E-0001	Conferences, elections, media crises
Location	L-0001	Geographic locations relevant to media context

# Clone the repository

git clone https://github.com/jamditis/claude-skills-journalism.git

# Copy the skill to your Claude config

cp -r claude-skills-journalism/digital-archive ~/.claude/skills/

Or download just this skill from the GitHub repository.

Web archiving Python pipeline Web scraping

Multi-source integration, AI categorization, entity extraction, and knowledge graph patterns.