Тема: FastFIDO
Показать сообщение отдельно
  #12  
Старый 11.03.2023, 22:22
Cheslav Osanadze
Guest
 
Сообщений: n/a
По умолчанию Супер база сообщений

Cheslav Osanadze написал(а) к Nil A в Mar 23 20:04:37 по местному времени:

Привет Nil!

11 Мар 23 20:05, Nil A -> Cheslav Osanadze:

CO>> Осталось найти способ собрать СУПЕР-базу, раз все эти Гугл-группы
CO>> умерли. Как то синхронизировать всё-в-одну, от всех согласных, у
CO>> кого что наберётся.

NA> У меня была мысль сделать маленькую утилитку, на smapi от хаски, и
NA> раздать её всем согласным в эксперименте.

NA> 1. Утилитка читает список баз доступных у сисопа
NA> 1.1. либо парсит разные форматы тоссеров, чтобы достать <area>
NA> <filename> 1.2. либо просто идёт в каталог с базами Jam/Squish и
NA> считает имя файла - это имя эхи 1.3. по неким патернам утилитке можно
NA> запретить читать базы, например по патерну pvt.*

Не всегда сработает, после появления программы PKT Analizer, который хранит архивы в текстах.
После нескольких крахов сквишных баз, я её и прикрутил.
Дальше только крах винта всё решал. :)

NA> 2. Для каждой эхи, утилитка создаёт список msgid, или более сложный
NA> date+from+from_addr+msgid (msgid не сильно уникальный в течении
NA> десятилетий бывает, хотя, если проверить, что from_addr там
NA> присутствует, то очень даже, только если сисоп не постит статистику из
NA> 3х сообщений в течении одной секунды и msgid тупо берёт из date(), но
NA> это всё детали).

И я в них - полный дуб(п).

NA> 3. Списочки из [area + [msgid, ..], ...] отправляются в единое место
NA> 3.1. На той машине есть интернет и сисоп не против, чтобы утилитка
NA> сходит в клауд по REST API 3.2. Сформировать файл (чего у меня есть),
NA> который сисоп передаст каким-то альтернативным путём

NA> 4. Некий центральный мозг сравнит с тем, что он уже насобирал с
NA> других, и выдаст список интересных ему сообщений, тот самый [area +
NA> [msgid, ..], ...] 4.1. Это всё может случиться автоматически, в той же
NA> REST API сессии 4.2. Сисоп руками что-то запустит, сформируется ответ,
NA> ответ отправит альтернативным путём, на каждом этапе он видит что
NA> именно отправляется, это как дампы памяти при крашрепортах для
NA> отправки Эпплу, Микрософту, ...

CO>> Гугл в поисках по фидо уже совсем отсох.

NA> Ищущий да обрящет (с)

Не, стал реально скуден и именно надо "искать". долго и нудно.

NA> Поиск - это большая тема. Да, её можно поручить
NA> [Sphinx](http://sphinxsearch.com), как это опционально делается в
NA> wfido (пожалуйста, мы всем вас просим, не путайте с WebFIDO).

NA> Про поиск. Сначала надо решить фидошные приколы с заменой Н-Н, на
NA> текстах 90х были приколы с русской р, кто пользовался keyrus, и далее
NA> по тексту. И вообще надо кодировочку сначала правильно поправить,
NA> приведя всё в [utf8](http://utf8everywhere.org). Далее, в замисимости
NA> от языка, нужно правильно токенизировать, выкинуть стоп-слова,
NA> лематизировать (медленно) или стиминг (быстро) сделать, короче корни
NA> слов оставить, далее проводить манипуляции с н-граммами, фичи,
NA> вектора,.. В итоге, без этих ваших GPT-3, который какую-то траву
NA> курит, можно искать

Ужас...:( А как же гугл-группы искали?

Или было всё проще - фидо было наверху поиска просто по активности?


Cheslav.


... Подполковником быть хорошо, а под генералом лучше
--- ...
Ответить с цитированием