Тема: FastFIDO
Показать сообщение отдельно
  #10  
Старый 11.03.2023, 21:52
Nil A
Guest
 
Сообщений: n/a
По умолчанию Супер база сообщений

Nil A написал(а) к Cheslav Osanadze в Mar 23 20:05:14 по местному времени:

* Originally in ru.fidonet.today
* Crossposted in nino.046.local
Нello, Cheslav!

Saturday March 11 2023 17:37, from Cheslav Osanadze -> Valentin Kuznetsov:

CO> Осталось найти способ собрать СУПЕР-базу, раз все эти Гугл-группы
CO> умерли. Как то синхронизировать всё-в-одну, от всех согласных, у кого
CO> что наберётся.

У меня была мысль сделать маленькую утилитку, на smapi от хаски, и раздать её всем согласным в эксперименте.

1. Утилитка читает список баз доступных у сисопа
1.1. либо парсит разные форматы тоссеров, чтобы достать <area> <filename>
1.2. либо просто идёт в каталог с базами Jam/Squish и считает имя файла - это имя эхи
1.3. по неким патернам утилитке можно запретить читать базы, например по патерну pvt.*

2. Для каждой эхи, утилитка создаёт список msgid, или более сложный date+from+fromaddr+msgid (msgid не сильно уникальный в течении десятилетий бывает, хотя, если проверить, что fromaddr там присутствует, то очень даже, только если сисоп не постит статистику из 3х сообщений в течении одной секунды и msgid тупо берёт из date(), но это всё детали).

3. Списочки из [area + [msgid, ..], ...] отправляются в единое место
3.1. На той машине есть интернет и сисоп не против, чтобы утилитка сходит в клауд по REST API
3.2. Сформировать файл (чего у меня есть), который сисоп передаст каким-то альтернативным путём

4. Некий центральный мозг сравнит с тем, что он уже насобирал с других, и выдаст список интересных ему сообщений, тот самый [area + [msgid, ..], ...]
4.1. Это всё может случиться автоматически, в той же REST API сессии
4.2. Сисоп руками что-то запустит, сформируется ответ, ответ отправит альтернативным путём, на каждом этапе он видит что именно отправляется, это как дампы памяти при крашрепортах для отправки Эпплу, Микрософту, ...

CO> Гугл в поисках по фидо уже совсем отсох.

Ищущий да обрящет (с)

Поиск - это большая тема. Да, её можно поручить [Sphinx](http://sphinxsearch.com), как это опционально делается в wfido (пожалуйста, мы всем вас просим, не путайте с WebFIDO).

Про поиск. Сначала надо решить фидошные приколы с заменой Н-Н, на текстах 90х были приколы с русской р, кто пользовался keyrus, и далее по тексту. И вообще надо кодировочку сначала правильно поправить, приведя всё в [utf8](http://utf8everywhere.org).
Далее, в замисимости от языка, нужно правильно токенизировать, выкинуть стоп-слова, лематизировать (медленно) или стиминг (быстро) сделать, короче корни слов оставить, далее проводить манипуляции с н-граммами, фичи, вектора,.. В итоге, без этих ваших GPT-3, который какую-то траву курит, можно искать

> Q) где и когда ближайшая фидопойка
> A) mo.fidopoika 24.09.2022, в баре "Вобла" на м. Проспект Мира
> (Протопоповский пер., д.3)


Best Regards, Nil
--- GoldED+/LNX 1.1.5
Ответить с цитированием