Loser story

Loser story

Аудитория: 872 подписчика
Категория: Блоги
Пишу всякое интересное про распределенные системы, базы данных и тд
https://github.com/MBkkt

Статистика канала

872 подписчиков

Последние посты

Loser story
Я конечно все понимаю, не очень популярный инвалидский дистрибутив и все дела. Но у всех зависает wildcard search по контенту пакетов в alpine? https://pkgs.alpinelinux.org/contents и попробовать поискать что-то в духе *symbolizer*
2 770
Loser story
Я конечно все понимаю, не очень популярный инвалидский дистрибутив и все дела.Но у всех зависает wildcard search по контенту пакетов в alpine?https://pkgs.alpinelinux.org/contents и попробовать поискать что-то в духе *symbolizer*
2 280
Loser story
Недавно в userver добавили реализацию счётчика на основе rseq -- restartable sequence.Идея не новая и встречалась как один из юзкейсов, когда это все добавлялось в ядро (4.18).Но в опенсурсе таких реализаций не встречал.Основное преимущество перед per thread счётчиком, то что thread-ов обычно больше cpu-cores, и как следствие чтения получаются быстрее, а записи аналогичны.Вообще впервые я встретил применение rseq в google tcmalloc, как замену per thread спискам блоков.И на мой взгляд это одна из лучших идей, которые я видел в современных аллокаторах. Потому что для очень большого числа программ, это сильно улучшает использование памяти.rseq исторически был сделан как раз для tcmalloc, хотя вероятно в гугле также заюзали и для метрикоподобных счётчиков.Ещё из интересного в glibc 2.35 затащили инициализацию rseq и в целом начали использовать для sched_getcpu.Вроде бы это произошло потому что пришли люди из mysql в redhat и сказали, а у нас медленно с вашим sched_getcpu, если сделать с rseq будет быстрее.Юзкейс аналогичный, шардированный счётчик.
2 740
Loser story
Недавно читал про разные olap query execution engines: velox, photon, etc. Есть интересный момент, о котором я думал раньше, но не встречал на практике. Предлагается для строковых функций (lower, upper, reverse, etc) делать предположение об инпуте, ASCII…
2 420
Loser story
Недавно читал про разные olap query execution engines: velox, photon, etc.Есть интересный момент, о котором я думал раньше, но не встречал на практике.Предлагается для строковых функций (lower, upper, reverse, etc) делать предположение об инпуте, ASCII он или нет.Утверждается, что в среднем это сильно ускоряет их, впрочем, если у вас только китайский текст, то вам такое не поможет, но вероятно и ничего не испортит.velox использует такой подход: Сделаем проверку на ASCII для инпута, если мы о нём ничего не знаем. Как правило эту проверку нужно сделать только один раз для инпут данных, так как большинство строковых функций принимая ASCII вернут так же ASCII.плюсы:* не требует ничего от стораджаминусы:* определяет ASCII или нет каждый раз* значительная часть времени для ASCII строк уходит на проверку, если бы мы знали заранее, что у нас только ASCII, было бы быстрее* незначительно медленнее utf-8 photon менее понятно, так как кода нет, но можно сказать что они так же имеют специализированные варианты функций.И возможно сохраняют некоторую мета информацию о колонке, насколько много в ней ASCII строк и нужно ли делать дополнительные проверки.плюсы:* читай минусы veloxминусы:* дополнительные вычисления на вставке/компактизации данныхВ заключение скажу что мне стало куда более очевидно, что для любой обработки строк стоит хотя бы сделать ASCII специализацию, и проброс ASCII or UTF-8, чтобы не считать это каждый раз.Например в lucene, да и у нас в поисковом движке, этого нет (при вставке текста, он проходит через множество функций токенизации), а сейчас я уверен, что это стоило бы попробовать сделать.Ещё есть прикольный момент, который я подсмотрел в реализации velox: часто специализация строковой функции для ASCII, реализацией совпадает с аналогом для последовательности байт, соответственно код можно переиспользовать.https://vldb.org/pvldb/vol15/p3372-pedreira.pdfhttps://people.eecs.berkeley.edu/~matei/papers/2022/sigmod_photon.pdf
2 230

Оставить комментарий/отзыв

Рекомендации

Уличная копоть

Уличная копоть

@menyalnikvrn
809 подписчиков

Инфа и другое

Мюсли ДвойногоУдава

Мюсли ДвойногоУдава

@dvoynoyudar
793 подписчиков

Анонсы и эксклюзивный контент

ГОРОДСКОЕ ПРАВО

ГОРОДСКОЕ ПРАВО

@legalurbanology
1.4K подписчиков

Авторский канал Председателя МГКА «Власова и партнеры» Адвоката к.ю.н. эксперта и активного гражданина Власово...

Валерий Букша Военный художник

Валерий Букша Военный художник

@valerybuksha
836 подписчиков

globus DANONE

globus DANONE

@globusdanya
794 подписчиков

haters gonna hate we gonna elevate

Реальный марафонец

Реальный марафонец

@real_marathoner
1.1K подписчиков

Кухня Ли

Кухня Ли

@loleto4
76 подписчиков

Вп и вл не делаем!

Это Твич, ДевачЬки) 🫶🏿

Это Твич, ДевачЬки) 🫶🏿

@lerra_twitch
794 подписчиков

💋 t.me/lerralerra (лс) 🎮 discord.gg/aFEAwnXDBQ 🔞 boosty.to/saharova666 👾 twitch.tv/saharova666 💃🏼 tiktok.com/@...

WITTIGER.ART

WITTIGER.ART

@wittiger_art
828 подписчиков

Рисую мультики для взрослых. Делаю анимации для брендов. Реклама и сотрудничество @pr_wittiger Мой вк: https...

Иван Йонтен | Как всё на самом деле

Иван Йонтен | Как всё на самом деле

@YontenWorld
907 подписчиков

Официальный блог прогрессора космоэнергетики, главы школы «Гихор» Ивана Йонтена @IvanYonten. Бесплатно и без...