dtanys使用技巧

2021-07-25
分类于项目技巧
python, 解析器

dtanys使用场景

如果不熟悉语法可参考 dtanys项目

核心语法：XDict(Parsing object, Analytical syntax).edict()

Parsing object 为 list or dict or tuple

Analytical syntax 为 str

提取所有键为 k 的值

from dtanys import XDict
from pprint import pprint
import requests

url = 'http://c.3g.163.com/nc/video/list/VAP4BFR16/y/0-10.html'

res = requests.get(url,headers={'User-Agent':"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50"}).json()

# 打印数据
pprint(res)

# 提取所有mp4的url
print(XDict(res,'/*mp4_url').edict())

提取对象形如 iterable[dict]的数据

from dtanys import XDict
from pprint import pprint
import requests

test_object = [
    {'a': 1, 'b' : 2},
    {'a': 3, 'b' : 4},
    {'a': 5, 'b' : 6, 'e' : 0},
    {'a': 7, 'b' : 8},
    {'a': 9, 'b' : 10, 'c': 0},
]

print(XDict(test_object,"//['a','b']").edict())

注：//['k'] 需要添加 '' or "" ,且选取的键值在 iterable 都需要存在

提取分形节点一致的数据

from dtanys import XDict
from pprint import pprint
import requests

url = 'http://c.3g.163.com/nc/video/list/VAP4BFR16/y/0-10.html'

res = requests.get(url,headers={'User-Agent':"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50"}).json()

# 打印数据
pprint(res)

# 提取所有alias,tid,tname,topic_icons 可排序
print(XDict(res,"/VAP4BFR16//videoTopic['tid','alias','tname','topic_icons']").edict())

配合切片一起使用

from dtanys import XDict
from pprint import pprint
import requests

url = 'http://c.3g.163.com/nc/video/list/VAP4BFR16/y/0-10.html'

res = requests.get(url,headers={'User-Agent':"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50"}).json()

# 打印数据
# pprint(res)

# 提取所有res[VAP4BFR16]下标为1,3,5,7,9,10的m3u8_url,mp4_url
print(XDict(res,"/VAP4BFR16[::2]//['m3u8_url','mp4_url']").edict())

注：当使用切片是选取对象必须是 iterable

其他问题请前往：issues

Dtanys

2021-07-14
分类于开源项目
python, 解析器

Dtanys

dtanys是一个python字典解析器，让人专注于非数据处理的代码构造中，dtanys使用xpath式语法

安装 `Dtanys`

使用 PyPi 安装 `Dtanys`

pip Find, install and publish Python packages with the Python Package Index
pip install dtanys

开始使用

导入 from dtanys import XDict

使用场景

test = {
  'a':"这是一个测试的字典！",
  'b':['python','java','C','C++','go'],
  'c':[{'normal':1},{'abnormal':0},{'normal':1}],
  'd':{'html':{'content':['css','js']}}
}

使用路径方式快速定位字典值

/d/html/content[0] 等价于 test['d']['html']['content'][0]

使用 , 选择多个列表值

/b[0,3] 等价于 test['d']['b'][0] 和 test['d']['b'][3]

使用 [start:end:step] 选择多个列表值,完全支持切片操作

/b[0:2:1] 等价于 test['d'][0:2:1]

使用 , 选择多个键值

/['a','b'] 等价于 test['a'] 和 test['b']

使用 // 选择所有键值

/c//normal 等价于 test['c'][0]['normal'] 和 test['c'][2]['normal']

使用 * 进行泛解析

/*normal 等价于 test['c'][0]['normal'] 和 test['c'][2]['normal']

example.py 模板

## 获取一个网易云歌单json数据
import json
import requests
from dtanys import XDict

url = "http://music.163.com/api/playlist/detail?id=475934383"

headers = {
    'User-Agent':"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
    }

res = requests.get(url=url,headers=headers).json()

## 打印 json
print(json.dumps(res, sort_keys=True, indent=4,ensure_ascii=False))

## 获取 歌单所有歌名
print(XDict(res,'/result/tracks//name').edict())

更多案例请参考example文件

文档

XDict语法

表达式	描述
/	从根节点选取
//	从匹配选择的当前节点选择字典中的节点，而不考虑它们的位置
[ any ]	当any为带引号的键时，选取当前对象的键值；否则即为切片或索引
[ ,… ]	要选择多个无规律的索引时，即可使用此方法，可重复选择
*	匹配任何元素节点
XX	从当前节点的键值选取键值为”XX”的值
*XX	从当前节点的键值选取所有键值为”XX”的值

ps : 第一次写 github 项目，如有问题或建议请提Issues或Insight

疏夜星稀

dtanys使用场景

Dtanys

安装 Dtanys

使用 PyPi 安装 Dtanys

开始使用

使用场景

example.py 模板

文档

XDict语法

安装 `Dtanys`

使用 PyPi 安装 `Dtanys`