что такое баянометр в пикабу
Что такое баянометр в пикабу
А в том что формально я соблюла (да, это слово так и пишется) ВСЕ правила Пикабу! И уже очень давно.
Тогда у нас состоялась следующая переписка с модератором:
Отлично, идем смотреть пост
вот он
Палец
и.. там нет ни одного тега.
Ну и как бы я это нашла?
может, стоит уже как-то починить БМ?
..размещаю в нашей лиге, чтобы не уперли на своё кладбище под названием «ваши ненужные предложения по работе Пикабе» или как оно там
На волне непрерывных повторений постов
Скажите пожалуйста, уважаемые саппорты, а баянометр случайно не сломался? Уж очень подозрительно я замечаю не менее трёх повторений постов в день одного и того же контента
Однако многие паблики «юмористической» направленности добавляют всякие приколы в виде текста/диалога с обязательной иллюстрацией либо просто отдельный диалог, и, как говорится, кто первый встал, того и тапки, и остальным пабликам приходится либо копировать и добавлять источник оригинала (для многих это зашквар, оригинальный контент же пилят), либо обливаться горючими слезами. Но есть третий вариант, который многим кажется гениальной альтернативой: брать тот же самый текст, но менять иллюстрацию (некоторые просто зеркалют картинку), а если диалог, то воссоздавать его в другом мессенджере/форуме. В итоге новостная лента завалена одной и то же смищной щюткой, но в разной обертке. Ублюдство.
Предлагаю два варианта:
1. Вернуть закрытое сообщество «Баяны» со всеми вытекающими!
2. Не начислять рейтинг постам-повторам! А то некоторые 100% ковыряют Пикабу нескольколетней давности, находят старые картинки/комиксы, кое-что подправляют, выкладывают и шикуют, как вот здесь, например: Представления о прекрасном
Ну или как в том же ВК, чтобы авторы всегда добавляли источник, откуда берут посты.
Ну и на волне: уберите эти бабушкины фоны у текстов!
Баянометр
Часто встречаются комментарии «Баянометр молчал», «БМ ничего не нашел» и т.д. Баянометр не даёт 100% гарантии и об этом указано в правилах (FAQ).
Дабы в будущем избежать повтора можно прибегнуть к ОЧЕНЬ простому способу.
И так. Рассматривали вы просторы интернета и наткнулись на как Вам показалось забавную картинку. Например вот эту:
Вы нажимаете «Добавить пост» и что мы видим. Баянометр молчит.
Прежде чем добавить пост, не поленитесь и проверьте картинку в Google картинки (Занимает это буквально 1-2 минуты.). Выбираем картинку:
В поле рядом с картинкой пишем pikabu.
И смотрим результат:
Раз данная картинка была, делать дубликат поста не нужно т.к. позовут moderatora и Ваш пост всё равно удалят.
Надеюсь эта информация будет кому-то полезна.
Не плюсов ради, информации для. Комменты для минусов присутствуют.
P.S: Пользуясь данной схемой проверим вот этот пост висящий в «Горячем» уже 2 часа http://pikabu.ru/story/pontyi_4095014.
Оптимальным было бы добавить этот алгоритм к существующей реализации баянометра, должно быть не так сложно.
Где-то я уже видел подобный пост и насколько я могу судить, эффекта от этого никакого. Ну разве что научишь пару тройку людей пользоваться поисковиком. И да, правильней писать site:pikabu.ru ( https://www.google.ru/advanced_search )
Слишком много действий. В гуглхроме можно просто правой кнопкой мыши нажать на изображение и выбрать «найти в гугле», есть такие же плагины для оперы и фаерфокса. А если ещё в строке гугла прописать «site:pikabu.ru», то он выдаст ссылки исключительно на сайт пикабу.
Автор, ты упустил один важный момент.
Если гугл нашёл какую-то картинку в посте, это не значит, что картинка и есть сам пост. Картинки ищутся и ко комментам.
Возьмём, к примеру, вторую ссылку — «искусство или наркоман?»
Вот это — картинка в посте, а линейки были прикреплены к комментарию.
Вот моя точка зрения: баянометр не нужен вообще, люди должны выполнять его роль. Это не вк здесь можно ставить минусы. И когда я вижу боян я просто влеплю ему минус, а если боян набирает 1000+, то значит это боян для значительно меньшего количества людей, а большинство решает
сначала подумал что на пикче дизайнерский квадрокоптер
Чел, тогда твой пост тоже БАЯН, ведь я писал об этом полтора года назад:
Коммент для минусов 2
Коммент для минусов 1
Ещё по тегам проверять можно, если только это не самые популярные теги
Еще бы приучить пикабушников теги ставить, а то поставят на гигантский пост 2-3 тега и все, а потом через время фиг найдешь нужный пост.
Да, ТС у тебя картинка баян):
Туалетно-сортирный сайт для этого и предназначен.
да похцй всем на боянометр. Удалят пост и хер с ним, а шанс срубить плюсов выше.
Инструкция как запостить боян и попасть в горячее.
Баяны на Пикабу
Вот такое письмо я отправил в техподдержку Пикабу, когда ни поиск по тегам, ни баянометр перед публикацией поста ничего не нашли и я в очередной раз выложил таки баян.
«Я уверен, что никто не хочет сознательно размещать баяны на Пикабу. Но, уже стала общим местом плохая работа баянометра и поиска по тегам на ресурсе.Поиск по тегам часто ничего не даёт, если не совпадает даже один тег. Иногда, даже эффективней получается поискать на Гугле или Яндексе.
Зато практически всегда аналогичный пост, если он есть на Пикабу, виден сразу же после публикации в разделе Похожие посты, которые размещены под постом, если его открыть.
А не могла бы ваша техслужба сделать так, чтобы раздел Похожие посты появлялся не после, а до публикации поста. Это позволило бы избежать большого количества баянов на Пикабу.
В ответе техподдержка посоветовала мне опубликовать пост на эту тему в сообществе « Предложения по Пикабу», что я делаю.
Так как тему считаю важной, пост без рейтинга, просьба не топить.
Мошенники в Play маркет
Друзья, не могу понять как Google пропустило данное приложение на маркет, но я верю в силу Пикабу и надеюсь вы поможете накидать жалобы. Дабы уберечь старое поколение и не особо смышленных людей (пару раз видел рекламу этого приложения в ВК и YouTube).
Принцип действия данного приложения в том, что Вам предлагают выплатить пособие от государства, но как только вы вводите свои данные, Вас просят оплатить комиссию по переводу на Ваши реквизиты. После оплаты как правило в таких мошеннических схемах ничего не происходит.
Не знаю можно ли оставить ссылку, поэтому просто прикрепляю скриншоты и название.
Привет, пикабу! Нужен совет тыжпрограмистов. Поставлю без рейтинга, поднимите в топ, кому не жалко. История такая: Мы небольшая узкоспециализированная организация. Коллектив маленький, все своими руками, в том числе и создание/ведение своего сайта.
Так вышло, что при всех изначальных данных, мы смогли занять довольно неплохое место на рынке, а сайт стал попадать в топ по некоторым ключевым запросам. И вот тут началось.
Сайт медленно, но верно ползет вниз. Куда и к кому обращаться уже не знаем. Может быть, среди пикабушников есть кто-то в теме? Советом, делом? Что делать?
Что такое баянометр в пикабу
Вы там как, готовы к осенним распродажам? Чтобы не пропустить самые интересные и выгодные предложения, подпишитесь на полезный телеграм-канал Пикабу со скидками. Да, Пикабу не только для отдыха и мемов, но и для экономных покупок!
В «Пикабу Скидки» вы найдете актуальные предложения:
• доставки еды (KFC, Delivery Club, «Папа Джонс»);
• книги («Читай-город», «Литрес», Storytel);
• услуги и сервисы («Делимобиль», Boxberry, «Достависта»);
• маркетплейсы и гипермаркеты (Ozon, «Ашан», «Яндекс.Маркет»);
• одежда и обувь (Adidas, ASOS, Tom Tailor)
• бытовая техника и электроника («М.Видео», «Связной», re:Store);
• товары для дома (IKEA, «Леруа Мерлен», Askona);
• косметика и парфюмерия («Л’Этуаль», «Иль де Ботэ», Krasotka Pro);
• товары для детей («Детский мир», TOY, Mothercare);
• образование («Нетология», GeekBrains, SkillFactory);
• и еще куча-куча всего.
Не понял. Ты что-то имеешь против АНИМЕ.
На футболке у негра: «мы ненавидим аниме»
На футболке Джона Сина: «аниме это жизнь»
Как работает баянопоиск Пикабу
В этом посте я расскажу в деталях как устроен поиск похожих постов на Пикабу и почему баянометр иногда молчит 🙂
Постараюсь все рассказать популярным языком, не скатываться в узкоспециализированные терминологии. Полагаю этот пост будет интересен как пикабушникам, которые вероятно не раз сталкивались результатами баянопоиска, так и другим читателям, которым интересен опыт разработки сложных систем.
Текущая технология поиска баянов была разработана нами в запущена в бой в октябре 2014 года. Это была вторая версия баянопоиска и её целью было улучшить качество и скорость поиска похожих постов.
Модуль поиска похожего видео работает только для видео, добавленных с внешних видео-хостингов, таких как youtube, vimeo, coub и пр. Поиск выполняется по внешнему идентификатору, который есть в URL к видео. Например, в следующем URL https://www.youtube.com/watch?v=dQw4w9WgXcQ идентификатором будет dQw4w9WgXcQ. Таким образом поиск похожих постов для видео из внешних видео-хостингов самый примитивный и ищет по сути посты, в которых добавили такую же ссылку на видео. Но если пользователь заливает видео файл (mp4, webm и пр), то тут уже другая песня и работает более сложный поиск по картинке, который мы разберем чуть ниже.
Исходя из рассказанного не сложно догадаться, что если добавить на Пикабу видео с youtube и затем попробовать такое же видео добавить с vimeo или просто залить как mp4 файл, то баянопоиск его никак не найдет сходства, так как у vimeo будет другой идентификатор у видео, а mp4 файл будет искаться другим способом.
Плотно покурив статьи разных умных гиков и глубоко погрузившись в пучину алгоритмов неточного поиска текстов было решено написать свой крутой велосипед)
Для объяснения принципа работы этого велосипеда возьмем следующую короткую панграмму с небольшим текстом:
Эй, жлоб! Где туз? Прячь юных съёмщиц в шкаф. Не судите строго на pikabu.
В нашем случае в тексте изменится только регистр символов и буква «ё» в слове «съёмщиц»:
эй, жлоб! где туз? прячь юных съемщиц в шкаф. не судите строго на pikabu.
Удаление немного хитрое, оно учитывает разные варианты написания. Например, для фразы «взято с vk» будут удалены также варианты «взято из вконтакте», «взято из вк», «взято c vkontakte» и тд.
В нашем тексте есть шаблонная фраза «не судите строго», поэтому после её удаления текст станет следующим:
эй, жлоб! где туз? прячь юных съемщиц в шкаф. на pikabu.
Мы бежим по всему тексту, ищем пунктуацию и принудительные переносы строк, отдельно стоящие слова, и затем разделяем текст на отдельные предложения (токены).
В нашем случае получится 4 токена:
— прячь юных съемщиц в шкаф
После удаления стоп-слов наш текст примет следующий вид (пропали «где», «в», «на» и «pikabu»):
эй жлоб // туз // прячь юных съемщиц шкаф
знаком «//» я показал разделение на токены. Как видно, у нас минус 1 токен, так как он целиком был удален.
Заменяем слова в токенах на синонимы по словарю из 6332 пар. Например, если в тексте будут слова «баянометр», «баянопоиск», «боянодетектор», то это разные слова, но все они об одном и том же. Поэтому в этом шаге мы их заменяем на одно общее слово, в частости «поиск».
Ну что, давайте посмотрим на что наш текст будет похож после этого шага:
эй жлоб // аристократ // прячь юных съемщиц шкап
Да, тут можно посмеяться, но слово «туз» имеет синоним «аристократ» 😀 А слово «шкаф» заменено на более древнее «шкап» (мы в разработке Пикабу знаем толк в извращениях 🙂 ).
После стемминга наш текст станет ещё краcивее:
э жлоб // аристократ // пряч юн съемщиц шкап
Ну что, взглянем на текст сейчас после этого шага:
э жлоб // орестокрот // пряч юн съемщец шкоп
У нас в примере всего 3 токена осталось, но в реальности часто посты имеют большие тексты и там по 100-500 токенов. Так много токенов нам не получится искать, накладно. Поэтому мы должны выбрать токены самые значимые для поиска. Для этого токены делятся на 4 группы:
1. ничтожные токены, в которых 1 слово
2. слабые токены, в которых меньше 5 слов.
3. нормальные токены, от 5 до 16 слов.
4. сильные токены, от 16 и более слов.
Итого для поиска мы будем использовать следующие два токена:
1. пряч юн съемщец шкоп
Итого, для наших двух токенов будут следующие хэши:
Каждый пост при добавлении на сайте проходит процедуру регистрации в базе данных баянопоиска. Так что каждый текст каждого поста проходит все эти 9 шагов и на выходе получаются токены, которые мы сохраняем в базу. Сейчас в базе насчитывается 34 миллиона токенов и вот по ним мы и ищем токены каждого нового текста из черновиков постов)
Ну вот мы и добрались до самого вкусного, за что я в течение последних 7 лет икал непрерывно.
Итак, какие задачи ставились перед новой версией баянопоиска по картинкам в 2014 году:
1. уметь искать отдельные независимые фрагменты картинок в длиннопостах. Ньюфаги вероятно не знают, а олдфаги позабыли, но раньше на Пикабу нельзя было добавлять несколько картинок в пост, только 1, и тогда были популярны т.н. длиннопосты, где вставлялась 1 длинная картинка с коллажем из разных фото. Вот пример ещё небольшого поста Стальные яйца. ;
2. уметь искать картинки перевернутые, отзеркаленные;
3. уметь искать немного обрезанные картинки или картинки с добавленными границами. Опять же старички припомнят эпоху демотиваторов, где полезная для поиска картинка имела черную толстую рамку с текстом;
4. уметь искать картинки с измененным цветом;
6. сортировать результаты поиска по релевантности.
Изучив матчасть, прочитав кучу непонятной литературы, посмотрев на сомнительные готовые решения, было решено сделать свой велосипед!
Для объяснения как работает поиск по картинкам давайте возьмем для примера следующее изображение:
Если изображение имеет анимацию (gif) или вместо изображения используется видео (mp4, webm и др), то мы берем для дальнейшей работы только первый кадр.
Применяем фильтр рассеивания (Dispecle), который немного размажет границы (заметно по забору), но при этом сгладит шумы (пропали артефакты возле текста):
Далее нам нужно разделить изображение на независимые фрагменты, каждый фрагмент мы будем искать отдельно. Для этого мы переводим изображение в черно-белый цвет (по сути оставляем только информацию о яркости каждого пикселя) и сжимаем по ширине до 128px самым быстрым алгоритмом масштабирования (тут качество не важно, важна скорость).
Начинаем анализ пикселей получившегося изображения сверху вниз (построчно) и затем слева направо (по каждой колонке), чтобы откинуть бесполезную информацию и найти отдельные фрагменты.
Анализ работает так:
— если в строке или колонке все пиксели имеют совсем небольшое количество уникальных значений яркостей (напомню, что картинка черно-белая, т.е. только яркости есть), то мы считаем эту строку пикселей бесполезной. Под такие строки попадают любые однородные фоны, на которых есть мелкий шум или текст.
— если статистика яркостей текущей строки на более чем 90% отличается от статистики яркостей предыдущей строки, то баянопоиск считает, что в данной строке начался новый фрагмент изображения.
Итак, мы нашли 1 полезный фрагмент, и откинули ненужные границы и тексты вокруг него. Однако поиск по базе данных мы будем делать все же по двум изображениям: оригинальному со всеми границами и текстами, и отдельным найденным фрагментом только с медведем.
Баянопоиск умеет искать как по геометрии изображения, так и по статистике цветов. По геометрии имеет смысл искать, если у изображения есть перепады яркостей и их много, например, светлая и темные стороны чего-либо, а для поиска по цветам нужно наличие оных в картинке).
Приведу примеру двух плохих для поиска картинок:
В той, что скудная геометрия, компьютерное зрение может спутать со 100500 различными другими картинками, например, с флагом Польши, у него такая простая геометрия, линия сверху и линия снизу. В той, где скудная статистика цветов действительно всего несколько оттенков серого. В итоге баянопоиск на данном шаге решает, какие способы поиска имеет смысл использовать для каждого из фрагментов) Если изображение супер скудное по всем параметрам, то баянопоиск ищет только по геометрии и будь что будет 😀
В нашем примере с медведем баянопоиск посчитает, что это изображение выгодно искать и по геометрии и по статистике цветов)
Также как и в расчете геометрии мы делаем грубый и точный расчет. На следующем изображении показаны эти гистограммы (уже с квантованием по уровням):
В этих двух двоичных представлениях хэшей у нас отличаются только 2 бита, так что расстояние Хэмминга тут равно двум. Таким образом мы сравниваем искомый хэш с более чем 13 миллионами фрагментов изображений в БД.
Сортируем результаты фильтрации постов по количеству отличий в битах, вначале будут идти посты с наименьшим отличием, т.е. у которых хэши больше всего похожи друг на друга.
Далее немного волшебной математики с разными показателями поиска и у нас на руках релевантрость для каждого найденного фрагмента. Отсеиваем все фрагменты, у которых релевантность ниже 18%, а все остальное показываем пользователю как возможные дубликаты)
ЭКСПЕРИМЕНТ С МЕДВЕДЕМ
Давайте проверим что будет, если к нашей картинке с медведем мы добавим смайлик, обрежем края немного, и перевернем на 180 градусов?
Геометрия изображения очень сильно поменялась, так как во-первых мы обрезали картинку, во-вторых перевернули. На следующей иллюстрации красным я подсветил отличия при сравнении перцептивных хэшей этих двух картинок. Отличий слишком много, поэтому поиск по перцептивному хэшу не дал результат:
А вот статистика цветов практически не поменялась и баянопоиск посчитал, что по гистограммному сравнению картинки равны на 80%!
Немного о планах. Мы планируем попробовать заменить баянопоиск на новую версию, уже с ML (машинное обучение, нейронные сети). Но пока что ещё точно не знаем получится ли или нет, но если получится, то постараемся рассказать и о принципах его работы)
О чем молчит баянометр?
Столкнулся недавно с безразличием, апатией и холодностью со стороны баянометра. Когда я постил гифку на любимом ресурсе вышеупомянутый типчик был нем как рыба. И какие к нему могут быть вопросы, если гифки такой на ресурсе еще не было. Пост выглядел так:
В комментариях нашелся некто, кто утверждал, что пост баян, хотя на картинке круглая херня зарядка выглядела совершенно другой. (Для сравнения с другим постом)
Модератор на мой вопрос ответил
К чести @Ministr11, у него в посту гифка полнее.
Спустя пару часов я не нашел никакой реакции модератора. Я правда искал ее, даже в другие посты ходил, но он мне так и не ответил, даже нафиг не послал. Зато под моим призывом появился комментарий, который показывает, что случай этот очень распространен. Я просто оставлю ссылочки тут.
Везде баянометр проявлял нейтралитет и стоял в сторонке.
А теперь самое главное, вопрос. Уважаемый @moderator, скажите, где проходит граница «идентичности постов». Посты про депутатов, происшествия дублируются по тысяче раз, дополняя друг друга по одной фоточке или меняя порядок тезисов. Посты с аниме артами (да простят меня анимешник) для меня, далекого от данного направления человека, выглядят вообще одинаковыми. Посты с котятками (боже мой я покусился на самое святое) идентичны своей мимимишностью.
И как, позвольте вас спросить, нужно отслеживать возможные повторения, если баянометр молчун, по тегам выдаются тысячи возможных вариантов, и, даже пересмотрев их, все равно находятся баяны, схожие по сути.
Всем спасибо за внимание, всем счастья!
Никто не обрисует точные границы во многих правилах ресурса. Многое зависит от самого модератора.
А так не вижу ничего столь страшного в баянах, если это не царь-баян, конечно, и баянометр не игнорируется. Самостоятельный поиск не всегда помогает. Тут нужно сказать спасибо криворучкам головожопкам, которые не могут в теги.
на этот пост были найдены дубликаты. так что жди, его тоже скоро в баяны кинут.
Это, наверное, от конкретного модера зависит. Я как-то в течение целого дня периодически отслеживал пост, где мужик засунул половой ху*й прямо в пиз*ду крупным планом. Там были и призывы, но пост так и висел до вечера. Может и сейчас где-нибудь в «древнем» висит.
забей. они все гандоны
А среди нас стукачооок
Баяны на Пикабу
Вот такое письмо я отправил в техподдержку Пикабу, когда ни поиск по тегам, ни баянометр перед публикацией поста ничего не нашли и я в очередной раз выложил таки баян.
«Я уверен, что никто не хочет сознательно размещать баяны на Пикабу. Но, уже стала общим местом плохая работа баянометра и поиска по тегам на ресурсе.Поиск по тегам часто ничего не даёт, если не совпадает даже один тег. Иногда, даже эффективней получается поискать на Гугле или Яндексе.
Зато практически всегда аналогичный пост, если он есть на Пикабу, виден сразу же после публикации в разделе Похожие посты, которые размещены под постом, если его открыть.
А не могла бы ваша техслужба сделать так, чтобы раздел Похожие посты появлялся не после, а до публикации поста. Это позволило бы избежать большого количества баянов на Пикабу.
В ответе техподдержка посоветовала мне опубликовать пост на эту тему в сообществе « Предложения по Пикабу», что я делаю.
Так как тему считаю важной, пост без рейтинга, просьба не топить.