Да, сделайте наконец еще одну полезную вещь, эта задача как раз соответствует вашему проф. уровню и поразвлекаетесь заодно с ЖЕСТКОЙ лингвистикой…вашей любимой. Спасибо заранее…выручайте, будьте так любезны. Большим ребятам (это я про ПС) опять же польза будет, надо же на чем то тестировать свои алгоритмы :)
«да достаются эти связи по НЧ из выдачи, без особого труда. толку-то с того.» Видимо, мы говорим о разном. Граф от одного запроса строится легко со всеми коррелирующими, все расстояния определяются между ребрами. Проблема из всех этих пазлов составить целую картинку всей семантики рунета таким образом, чтобы расстояния между соединяющими кластеры пограничными ребрами были минимизированы (классическая мат. задача нахождения минимальных расстояний). Т.е. повернуть геометрически кластер так, чтобы он подогнался со смежнотематическими с минимальными расстояниями у ИМЕЮЩИХСЯ найденных при парсинге границ. После такой чисто комбинаторной процедуры подгонки, для узлов, где нет связей, а по всей логике они должны бы быть, ищутся (подставляются наиболее близкие семантически к каждому из узлов) недостающие фразы, чтобы скрепить эти точки. Т.е. это синтетический способ образования нужных НЧ, которых естественным путем можно ждать в статистике 100 лет. Как вариант, можно искать их в выдаче, забивая в ПС запрос из 2х узловых точек. Поисковик сам найдет докумены, связывающие по НЧ эти точки и в сниппете отобразит нужные фразы. И вот имея такуя целую структуру по всей коллекции запросов + 50% синтезированных, а то и больше, можно уже говорить о переводчике, точнее, об 12 его части если такую же байду делать для англоязычного запросного графа.
«То, что делает Абби, насколько я могу судить, не имеет отношения к этим вашим выдумкам.» Ну значит эта команда работает на других, значит я ошибся. «У них классическая «тяжёлая лингвистика», модель Смысл-Текст, создание «языка смыслов» и т.п.» тем хуже для них. А вообще, покурите, тут вот грамотный человек пришел, не вам чета. Можно я с ним поговорю, а то ваши близкие родственные связи вместе с огурцами и банями уже достали. «tyanitolkay, что гугль что яндекс нормальной статистики по запросам НЕ отдают. Ну так для начала.» Это я и без вас знаю, но сие не мешает вытаскивать нужное, даже несмотря на ваши ограничения в показах у вордстата коммерческих запросов а в директе некоммерческих соответственно. «Так что спарсить запросы и выдачу это дело не самое хитрое, этим много кто занимается.» Кроме меня их к нормальному графу никто не приводит на рынке, а парсят многие да.. «А как объехать тот факт что процентов 50 запросов к гуглю уникальные в пределах месяца, и он их просто НЕ показывает в гкт ?» Тут выход один, добывать нужные и недостающие связки самому из выдачи. Пока не знаю как. «у яндеса такая же фигня — те запросы, что они показывают в вордстате уже предварительно «округлены» и сгруппированы.» мне это не мешает, я все равно все перестраиваю. «открывать» взаимосвязи между запросами, некоторые сеошники это уже года 3 как делают, строят такие графы и как сервис продают (сам продавал). Но сделать на базе этого нормальный переводчик… :)))) » Я не знаю, что там другие ищут и как, особенно если не знают, чего именно хотят найти (возможно, что именно то, что я уже давно нашел). Я говорю о другой этапной задаче- о поиске тех НЧ запросов, которые свяжут семантические кластеры между собой прежде всего для пограничных пределов. «Ну вы бы какую-нибудь ссылку дали на свою мега-технологию. А то вы хотите разговаривать с посвященными («граф запросов» это вообще что за граф такой?), но не похоже, что здесь есть хоть один.» Сервис давно в паблике и многие его уже видели, а если вам прямая ссылка нужна, то попросите ее у Ашманова, пусть он пороется в своем помойном ведре, или куда он там все складывает не знаю :)
Игорь, инвесторы, они же такие же как ты, бизнесмены чисто типа, они не могут строить аналитику на инсайдах типа тех, которые просачиваются. Слишком косвенным образом она сливается. Нужно действительно понимать технологию, чтобы узреть в этой всплывающей инфе охрененный риск. Вот взять, к примеру вас…и что, вложились бы вы в Абби? Скорее да чем нет, просто вас в Абби никто не ждет :) И ваши реплики в их сторону лишь доказывают интерес к ним…:) Тем не менее, этот проект умрет не родившись…(с) Но вы, как инвестор, не можете понять это, хотя и обладаете в данной специфической теме некоторым набором знаний (изрядно устаревщих :) )
«Возможно, в Абби строжайше запрещено писать про технологию, пока не.» Технология светилась в сети на форумах по ИИ. И прорыв в этом направлении уже явно виден. Абби просто не обладает достаточными динамически изменяющимися базами коллекций запросных графов, чтобы составить конкуренцию поисковикам, и понятно, что никто им эти базы сливать не будет.
Инвесторов жаль, они не понимают, что проект не выдержит конкуренции с грядущей технологией, которой вообще по барабану с какого языка на какой переводить и которая на порядок опережает по своим возможностям все, что успели наработать в Абби.
Дискуссии пользователя
Да, сделайте наконец еще одну полезную вещь, эта задача как раз соответствует вашему проф. уровню и поразвлекаетесь заодно с ЖЕСТКОЙ лингвистикой…вашей любимой. Спасибо заранее…выручайте, будьте так любезны. Большим ребятам (это я про ПС) опять же польза будет, надо же на чем то тестировать свои алгоритмы :)
«да достаются эти связи по НЧ из выдачи, без особого труда. толку-то с того.» Видимо, мы говорим о разном. Граф от одного запроса строится легко со всеми коррелирующими, все расстояния определяются между ребрами. Проблема из всех этих пазлов составить целую картинку всей семантики рунета таким образом, чтобы расстояния между соединяющими кластеры пограничными ребрами были минимизированы (классическая мат. задача нахождения минимальных расстояний). Т.е. повернуть геометрически кластер так, чтобы он подогнался со смежнотематическими с минимальными расстояниями у ИМЕЮЩИХСЯ найденных при парсинге границ. После такой чисто комбинаторной процедуры подгонки, для узлов, где нет связей, а по всей логике они должны бы быть, ищутся (подставляются наиболее близкие семантически к каждому из узлов) недостающие фразы, чтобы скрепить эти точки. Т.е. это синтетический способ образования нужных НЧ, которых естественным путем можно ждать в статистике 100 лет. Как вариант, можно искать их в выдаче, забивая в ПС запрос из 2х узловых точек. Поисковик сам найдет докумены, связывающие по НЧ эти точки и в сниппете отобразит нужные фразы. И вот имея такуя целую структуру по всей коллекции запросов + 50% синтезированных, а то и больше, можно уже говорить о переводчике, точнее, об 12 его части если такую же байду делать для англоязычного запросного графа.
«То, что делает Абби, насколько я могу судить, не имеет отношения к этим вашим выдумкам.» Ну значит эта команда работает на других, значит я ошибся. «У них классическая «тяжёлая лингвистика», модель Смысл-Текст, создание «языка смыслов» и т.п.» тем хуже для них. А вообще, покурите, тут вот грамотный человек пришел, не вам чета. Можно я с ним поговорю, а то ваши близкие родственные связи вместе с огурцами и банями уже достали. «tyanitolkay, что гугль что яндекс нормальной статистики по запросам НЕ отдают. Ну так для начала.» Это я и без вас знаю, но сие не мешает вытаскивать нужное, даже несмотря на ваши ограничения в показах у вордстата коммерческих запросов а в директе некоммерческих соответственно. «Так что спарсить запросы и выдачу это дело не самое хитрое, этим много кто занимается.» Кроме меня их к нормальному графу никто не приводит на рынке, а парсят многие да.. «А как объехать тот факт что процентов 50 запросов к гуглю уникальные в пределах месяца, и он их просто НЕ показывает в гкт ?» Тут выход один, добывать нужные и недостающие связки самому из выдачи. Пока не знаю как. «у яндеса такая же фигня — те запросы, что они показывают в вордстате уже предварительно «округлены» и сгруппированы.» мне это не мешает, я все равно все перестраиваю. «открывать» взаимосвязи между запросами, некоторые сеошники это уже года 3 как делают, строят такие графы и как сервис продают (сам продавал). Но сделать на базе этого нормальный переводчик… :)))) » Я не знаю, что там другие ищут и как, особенно если не знают, чего именно хотят найти (возможно, что именно то, что я уже давно нашел). Я говорю о другой этапной задаче- о поиске тех НЧ запросов, которые свяжут семантические кластеры между собой прежде всего для пограничных пределов. «Ну вы бы какую-нибудь ссылку дали на свою мега-технологию. А то вы хотите разговаривать с посвященными («граф запросов» это вообще что за граф такой?), но не похоже, что здесь есть хоть один.» Сервис давно в паблике и многие его уже видели, а если вам прямая ссылка нужна, то попросите ее у Ашманова, пусть он пороется в своем помойном ведре, или куда он там все складывает не знаю :)
Игорь, инвесторы, они же такие же как ты, бизнесмены чисто типа, они не могут строить аналитику на инсайдах типа тех, которые просачиваются. Слишком косвенным образом она сливается. Нужно действительно понимать технологию, чтобы узреть в этой всплывающей инфе охрененный риск. Вот взять, к примеру вас…и что, вложились бы вы в Абби? Скорее да чем нет, просто вас в Абби никто не ждет :) И ваши реплики в их сторону лишь доказывают интерес к ним…:) Тем не менее, этот проект умрет не родившись…(с) Но вы, как инвестор, не можете понять это, хотя и обладаете в данной специфической теме некоторым набором знаний (изрядно устаревщих :) )
«Возможно, в Абби строжайше запрещено писать про технологию, пока не.» Технология светилась в сети на форумах по ИИ. И прорыв в этом направлении уже явно виден. Абби просто не обладает достаточными динамически изменяющимися базами коллекций запросных графов, чтобы составить конкуренцию поисковикам, и понятно, что никто им эти базы сливать не будет.
Инвесторов жаль, они не понимают, что проект не выдержит конкуренции с грядущей технологией, которой вообще по барабану с какого языка на какой переводить и которая на порядок опережает по своим возможностям все, что успели наработать в Абби.