{"library":"pdfquery","title":"PDFQuery","description":"PDFQuery is a lightweight Python library for scraping data from PDFs using JQuery-like CSS selectors or XPath expressions. It wraps pdfminer and lxml to provide a concise API for extracting text, tables, and layouts. Version 0.4.3 is the latest, with no active development since 2016.","language":"python","status":"maintenance","last_verified":"Fri May 01","install":{"commands":["pip install pdfquery"],"cli":null},"imports":["from pdfquery import PDFQuery"],"auth":{"required":false,"env_vars":[]},"quickstart":{"code":"from pdfquery import PDFQuery\n\npdf = PDFQuery('sample.pdf')\npdf.load()\n\n# Extract text using CSS selector\ntext = pdf.pq('LTTextLineHorizontal').text()\nprint(text)\n\n# Extract with XPath\ntext2 = pdf.pq('LTTextLineHorizontal:contains(\"Invoice\")').text()\nprint(text2)","lang":"python","description":"Load a PDF and extract text lines using JQuery-like selectors via pyquery.","tag":null,"tag_description":null,"last_tested":null,"results":[]},"compatibility":null}