在处理复杂嵌套的 JSON 数据源时，我们常面临访问不便、结构不灵活、字段关联性差等问题。本文将以 O’Reilly 为 OSCON 2014 提供的 JSON 数据源为例，系统讲解如何通过动态属性转换、对象封装、数据库映射与特性（property）机制，实现一个结构清晰、操作便捷、具备自动关联能力的数据访问系统。

动态属性访问：从冗余到优雅的属性访问方式

初始问题：嵌套结构访问繁琐

原始的 JSON 数据结构如下（示例节选）：

{"Schedule": {"events": [{"serial": 34505,"name": "Why Schools Don´t Use Open Source to Teach Programming","speakers": [157509]}],"speakers": [{"serial": 157509,"name": "Robert Lefkowitz"}]}
}

如果我们想访问某个事件的名称，需要写成：

feed['Schedule']['events'][0]['name']

这种写法不仅冗长，而且难以维护。

解决方案：使用动态属性封装 JSON 数据

我们构建一个 FrozenJSON 类，将嵌套的字典和列表包装成支持属性访问的对象：

class FrozenJSON:def __init__(self, mapping):self.__data = dict(mapping)def __getattr__(self, name):if hasattr(self.__data, name):return getattr(self.__data, name)else:return FrozenJSON.build(self.__data[name])@classmethod def build(cls, obj):if isinstance(obj, abc.Mapping):return cls(obj)elif isinstance(obj, abc.MutableSequence):return [cls.build(item) for item in obj]else:return obj

通过该类，我们可以用属性方式访问嵌套数据：

feed = FrozenJSON(data)
print(feed.Schedule.events[0].name)

进一步优化：关键字与非法标识符处理

Python 关键字（如 class, lambda）和非法标识符（如数字开头）在属性名中是不合法的。我们可以在初始化时检测并自动修正：

def __init__(self, mapping):self.__data = {}for key, value in mapping.items():if keyword.iskeyword(key):key += '_'self.__data[key] = value

数据结构优化：使用 `new` 构建更灵活的对象体系

从类方法到 `new`：对象构建逻辑的统一

我们尝试将 build 方法的逻辑转移到 __new__ 中，使其更贴近对象构造流程：

def __new__(cls, arg):if isinstance(arg, abc.Mapping):return super().__new__(cls)elif isinstance(arg, abc.MutableSequence):return [cls(item) for item in arg]else:return arg

这样，对象的构建逻辑统一在创建阶段完成，提升了封装性与一致性。

数据持久化与索引优化：使用 `shelve` 构建轻量数据库

数据库结构设计

我们使用 shelve 模块构建一个键值数据库，以 type.serial 为键存储对象：

def load_db(db):data = osconfeed.load()for collection, rec_list in data['Schedule'].items():record_type = collection[:-1]for record in rec_list:key = f"{record_type}.{record['serial']}"db[key] = Record(record)

Record 类设计

一个通用的 Record 类用于封装数据字段：

class Record:def __init__(self, kwargs):self.__dict__.update(kwargs)

每个记录都以 type.serial 为键存储在数据库中，便于快速查找。

自动关联机制：使用 property 实现跨记录引用

DbRecord 类：记录数据库引用

我们定义 DbRecord 类，支持设置和获取全局数据库引用：

class DbRecord(Record):__db = None@staticmethod def set_db(db):DbRecord.__db = db@staticmethoddef get_db():return DbRecord.__db@classmethoddef fetch(cls, ident):db = cls.get_db()return db[ident]

Event 类：自动获取关联记录

我们为事件类添加 venue 和 speakers 属性，实现自动关联：

class Event(DbRecord):@propertydef venue(self):return self.__class__.fetch(f"venue.{self.venue_serial}")@propertydef speakers(self):if not hasattr(self, '_speaker_objs'):spkr_serials = self.speakersself._speaker_objs = [self.__class__.fetch(f"speaker.{s}") for s in spkr_serials]return self._speaker_objs

这样，访问 event.speakers 就会自动获取演讲者对象列表。

自动类加载与工厂模式：根据数据类型动态构造对象

我们扩展 load_db 函数，使其支持动态加载指定类：

def load_db(db):data = osconfeed.load()for collection, rec_list in data['Schedule'].items():record_type = collection[:-1]cls_name = record_type.capitalize()cls = globals().get(cls_name, DbRecord)if inspect.isclass(cls) and issubclass(cls, DbRecord):factory = cls else:factory = DbRecordfor record in rec_list:key = f"{record_type}.{record['serial']}"db[key] = factory(record)

这样，当存在 Venue、Speaker 等类时，系统会自动使用它们构造对象。

总结：构建现代数据访问层的技术栈

我们通过以下技术栈构建了一个灵活、可扩展、易于维护的数据访问系统：

技术点	作用
动态属性封装（`__getattr__`）	实现简洁的属性式访问
对象构建优化（`__new__`）	统一对象构造逻辑
数据库抽象（`shelve`）	实现数据持久化与快速索引
类型自动绑定（反射机制）	支持多类型记录的差异化处理
属性关联机制（property）	实现数据自动引用与懒加载
工厂模式与类加载	支持扩展性，方便添加新类型记录