{"library":"pyddq","title":"pyddq","description":"Python API for Drunken Data Quality (DDQ), a data quality validation library for Apache Spark DataFrames. Current version 5.0.0, supports Spark 2.2.1 and Python 3. Last release in 2017; project appears stable with no recent updates.","language":"python","status":"deprecated","last_verified":"Fri May 01","install":{"commands":["pip install pyddq"],"cli":null},"imports":["from pyddq import Constraint","from pyddq.runner import Check","from pyddq.runner import Runner"],"auth":{"required":false,"env_vars":[]},"quickstart":{"code":"from pyddq import Constraint\nfrom pyddq.runner import Runner, Check\nfrom pyspark.sql import SparkSession\n\nspark = SparkSession.builder.appName('ddq_example').getOrCreate()\ndf = spark.createDataFrame([('Alice', 34), ('Bob', 45), ('Charlie', 28)], ['name', 'age'])\n\nconstraint = Constraint(name='age_not_null', condition=\"age IS NOT NULL\")\ncheck = Check(df, [constraint])\nrunner = Runner()\nresults = runner.run(check)\nfor r in results:\n    print(r.result, r.constraint_name)","lang":"python","description":"Quickstart: create a Spark DataFrame, define a constraint, run a check with Runner.","tag":null,"tag_description":null,"last_tested":null,"results":[]},"compatibility":null}