Страшные встроенные структуры

Денис Аникин https://xfenix.ru Страшные встроенные структуры

Struct, array 2

Немного о памяти 3 — Память это массив байтов с
точки зрения софта (byte-addressed). Для нас это бесконечный поток адресов конкретных байтов — Оперативная память хорошо параллелизирует операции

Адреса в оперативной памяти 4 — Вы можете по ним
перемещаться с помощью вычитания и сложения — По сути мы с вами оперируем несколькими большими сущностями: записями и массивами

Запись 5 — Пример — pyobject

Как получить поле записи? 6 Адрес записи + индекс нужного
поля внутри * 8

По сути мы описали struct в C 7 Вот его
аналог в Python:

Еще одна структура — array 8 Так мы можем сохранить
строку:

Модуль array 9

Обе структуры дают константный доступ к данным 10

Некоторые дополнительные специализированные массивы 11 — str — StringIO —
memoryview — bytearray — bytes

Кое-что еще 12 Каждый раз, когда вы хотите обратиться к
элементам массивов, вы вынуждены собирать питон объекты. Если вы захотите сделать sum массива из 100 float, вы получите сборку >100 объектов

List, tuple 13

Tuple 14

Важные дополнения 15 — При копировании мы всего-лишь переносим ссылки
— Чтобы достать item, получить len, нам достаточно вытащить 8 байт!

List! 16 С ним есть проблема

Как list устроен внутри 17

Как list устроен внутри 18

Реалокация 😬 19 >>> list(range(10)) [0, 1, 2, 3, 4,
5, 6, 7, 8, 9] >>> sum(range(10)) 45 >>> sum(range(1000)) 499500 >>> sum(range(1_000_000)) 499999500000

Как же лист борется с append’ами? 20 — При аппенде
в наполненный список добавляется не 1 слот, с каждым разом все больше: 4, 8, 16, 25, 35, 46, 58, 72, 88, … — Это называется амортизацией

Интересные цифры 21

Есть и цена 22 Если у вы добавляете 991 первый
элемент к списку из 990 элементов, то получаете аллокацию 1120 «слотов» и копирование 990 элементов «за занавеской»

Не все так плохо: list использует 94%* места и требует
около 6% экстра-места для будущих append *в среднем **кажется… 23

List — опасен! 24 s = [1, 2, 3, …]
— s.insert(0, v) — s.pop(0)

Плохая идея 25 while my_list: item = my_list.pop(0) print(item)

Идея получше 26 for item in reversed(my_list): print(item)

List — опасен! 27 s = [1, 2, 3, …]
— 1000 элементов — Делаем s[400:500] — Получаем 800 байт копирования и новый список в 100 элементов!

Dictionary 28

А почему dict так важен? 30 — globals — locals’
— modules — class — instance

Как нам превратить ключ в индекс? 31 У нас есть
что угодно: — строка — число — tuple — и т.п.

Как нам превратить ключ в индекс? 32 У нас есть
что угодно: — строка — число — tuple — и т.п. Из этого должен получиться индекс!

Hash! 33

Давайте поговорим о хеше 35 Что это вообще — Функция,
возвращающая предсказуемое число на любые входные данные

возвращающая предсказуемое число на любые входные данные — На 32битной платформе возвращет 32 бита, на 64 — 64

возвращающая предсказуемое число на любые входные данные — На 32битной платформе возвращет 32 бита, на 64 — 64 — У каждого типа свое хеширование.

Что хешируемо? 38 — int — str — tuple —
frozenset — functions (!)

Что НЕ хешируемо? 39 Lists, dicts, sets, tuples с изменяемыми
объектами:

Как работает dict 40 Представим my_dict = {} bucket offset
(key, value) pairs references 000 001 010 011 100 101 110 111

Как работает dict 41 Представим my_dict = {} Мы хотим
сделать следующее: bucket offset (key, value) pairs references 000 001 010 011 100 101 110 111 my_dict['newkey'] = 1 my_dict['privet'] = 2

(key, value) pairs references 000 001 010 011 100 101 110 111 >>> hash('newkey') 1521937699834405394

(key, value) pairs references 000 001 010 011 100 101 110 111 >>> hash('newkey') 1521937699834405394 >>> bin(hash('newkey')) 1010100011111000000100100011001000000111001111010001000010010

(key, value) pairs references 000 001 010 (‘newkey’, 1) 011 100 101 110 111 >>> hash('newkey') 1521937699834405394 >>> bin(hash('newkey')) 1010100011111000000100100011001000000111001111010001000010010

(key, value) pairs references 000 001 010 (‘newkey’, 1) 011 (‘privet’, 2) 100 101 110 111 >>> hash('newkey') 1521937699834405394 >>> bin(hash('newkey')) 1010100011111000000100100011001000000111001111010001000010010 >>> bin(hash('privet')) 101000100111100111100111001010111111110100111000010110011

Как работает dict, когда значений больше 8? J 47 —
При загрузке более 2/3 словаря, происходит увеличение массива вдвое — Средняя загрузка колеблется между 1/3 и 2/3

Коллизии 48

Chaining 50

Open addressing 51 В общем виде

Open addressing 52 Удаление

Chaining vs probing 53 Кстати говоря, про linear probing

Open addressing 54 — Эффективнее по памяти (как ни странно)
— Берет пробы приблизительно так: — Linear probing имеет кучу проблем (primary clustering, например). Поэтому существуют quadtratic probing и пр. — Все это крайне чувствительно к хеш функции (нужно равномерное распределение) probes[i] = hash(key) + i % number_of_buckets

Но есть хорошая новость — в питоне PRNG, а не
linear probing 55

Compact dict (>=3.6) 56 # было hash_table = [ ('--',
'--', '--'), (542403711206072985, 'two', 2), ('--', '--', '--'), (4677866115915370763, 'three', 3), ('--', '--', '--'), (-1182584047114089363, 'one', 1), ('--', '--', '--'), ('--', '--', '--') ] # стало hash_table = [None, 1, None, 2, None, 0, None, None] entries = [ (-1182584047114089363, 'one', 1), (542403711206072985, 'two', 2), (4677866115915370763, 'three', 3), ]

Compact dict (>=3.6) 57

Compact dict (>=3.6) 58 Теорема Халла-Добелла / Линейный конгруэнтный генератор

/ Спасибо 61 Денис Аникин https://xfenix.ru

Страшные встроенные структуры

Страшные встроенные структуры

More Decks by Denis Anikin

Other Decks in Programming

Featured

Transcript