Du må være registrert og logget inn for å kunne legge ut innlegg på freak.no
X
LOGG INN
... eller du kan registrere deg nå
Dette nettstedet er avhengig av annonseinntekter for å holde driften og videre utvikling igang. Vi liker ikke reklame heller, men alternativene er ikke mange. Vær snill å vurder å slå av annonseblokkering, eller å abonnere på en reklamefri utgave av nettstedet.
  17 1378
Jeg og Gordon Gekko driver for tiden å lager en "pay per click"
søkemotor. Vi har hatt suksess med en slik funksjon på 4u.no og tror
markedet nå er modent for en slik tjeneste, i en større skala
(skandinavisk/internasjonalt). Dette vil bli lansert under navnet
Boitho.com

Til dette trenger vi nå hjelp av en designer, som kan lage designet til
siden. Og annet grafisk arbeid som logo og noen knapper. Gjerne en
jente, fordi jenter er flinke på design.

En programmerer som helst har erfaring med en eller flere ting av
følgende; Perl, mod_perl, DBM databaser, hasheing, XML, cashing
teknikker, opptimalisering av Linux minne og disk bruk. Eventuelt andre
ting som kan være nyttig.

Med de rette folkene og entusiasme og pågangsmot kan vi veie opp for
mangelende ressurser og erfaring.

Vi kan ikke tilby noen lønn hverken til dere eller til oss, men
når/hvis dette tar av vil alle selvfølgelig ta del i utbytte.
Folk som har sett beta versjonen er henrykt.

Vi håper noen har tid og krefter til skape noe virkelig stort.


Det er også en diskusjon om teknologien og ideen på skitX her

Om teknologien vi har utvikklet:


Det som for brukeren fremstår som en søkemotor er i virkeligheten 2
søkemotorer integrert. Først har vi betalingslinkene som presenteres
først, deretter vi har rippet fra Dmoz og indeksert selv.

De fleste søkemotorene på Internett i dag baserer seg på såkalt
"paralle søk", det vil si at et søke query sent til søkemotoren blir
sent til en enkel datamaskin (eller i hvertfall ikke så veldig mange),
etter det skalte Round-Robin prinsippet. Så at de har 500 servere betyr
bare at de kan ta i mot 500 ganger flere søk en noen med 1 server, da
all søking uansett bare skjer på en server. Så de små med bare en
server kan konkurrere ved å begynne med en server å kjøpe flere etter
hvert som man motar flere søk. Det er heller ikke nødvendig å indeksere
så mange sider at du har millioner av treff på hvert ord, da få folk
uansett går forby side 3.

Det ble tidlig klart at vi trengte en vanlig søkemotor i bunnen slik at
vi hadde noen resultater å vise brukerene inntil vi fikk mange
annonsører, og brukere som søkte på mindre kommersielle emner. Bygging
av en vanlig søkemotor byr på en del problemer forbundet med at vi
jobber med store datamengder, så for eksempel bruk av en standard
databasen som MySQL var utelokket da ytelsen faller dramatisk nor
tabellene blir større en tilgjengelig minne (ram). I steden lagde jeg
mitt egent database system med fil hashing. Denne metoden er ideell da
det ikke er noen ytelsesforskjell om vi har en database på 50 MB eller
50 GB.

For å redusere mengden av data vi må lagre om hver side brukes Zipf's
lov. Dette er en matematisk formel som finner de 20% av ordene i en
tekst som står for 70% av meningen, hvis vi har et stort nok
datagrunnlag. Enkelt forklart ser man da på hvor ofte et ord fins i
mengden ut fra hvor stor mengden er.

For eksempel i test oppsetet vårt med 116 078 unike søkeord for 8890
sider er dette ti på topp:


Kode

| ORD                  |  SIDER |
| ikke                 |   1259 |
| kan                  |   1404 |
| det                  |   2030 |
| fra                  |   2078 |
| har                  |   2226 |
| som                  |   2987 |
| med                  |   3307 |
| informasjon          |   3354 |
| til                  |   4157 |
| for                  |   4547 |
For eksempel "for" fins på 4547 sider, altså på 51%, så "for" kan
forkastes da det ikke gir noen mening å søke på det da du får så mange
treff.

Det virkelige vanskelige i å bygge en søkemotor er å skille sider med
kvalitet fra de som ikke er det, for dette fins det en rekke metoder,
ingen av de er gode.

Vår metode var å gjøre dette ved å begynne med å indeksere de norske
sidene i dmoz og i katalogen på 4u.no. Disse sidene er gjennomgått og
godkjent av mennesker så de typisk er store og av en hvis kvalitet,
deretter indekserte vi alle sidene som disse linker til, da hvis dmoz
og 4u.no sidene er av kvalitet så bør de de linker til også være det.
Indeksereren vekter også sidene ut fra en rekke kriterier for å sørge
for at de mest relevante kommer først.


Følgende gjenstår:

Steming; For å øke brukervennligheten og minske datamengden vi må lagre
kan man tenke seg at søk på "bil" og "biler" er det samme. Problemet er
at systemer som finner dette ut kan fort mene at "hus" og "hustru" også
er likt, og "biler" og "bilder". Derfor er det vanskelig å gjøre
automatisk.

For tiden ser jeg på flere alternativer. Det beste vil være å bruke en
ferdig "stemme" liste som lister slike synonymer, og bruke n-gram eller
three-gram (automatiske matematiske modeller for formålet) til å
håndtere det som ikke er i listen.

Affilant program; vi er ikke helt ferdig med det.

Klient; vi har en klient i Perl folk kan bruke på sin side for å koble
seg til søkemotoren å integrere den på sin side. Planen er å også lage
klienter i PHP, ASP og JavaScript. I hvertfal JavaScript kan by på
utfordringer.

I tillegg jobber vi med andre måter som folk kan bruke for å integrere
søkemotoren på sin side. Detter er blant annet: enkel søkebokser som
bare sender brukeren til oss, avanserte søkebokser som viser svaret med
egen hedder/footer og en XML interface.


Følgende er planlagt for fremtiden:

I dag foregår selve søkingen av et Perl script. Man må lage en ny
prosses for hver gang, noe som tar tid, og man kan ikke cashe i minnet
mellom hver gang. Planen er å skrive en daemon som pre-forker nye
prosseser på forhond, slik at brukeren ikke trenger å vente på dette.

I tillegg vil disse prosessene ha et felles minne område hvor side data
for de siste 100 K sidene som er lest fra disken blir cashet, slik at
man skjellden må hente nye.

Jeg har allerede et slikt eksperimentelt system oppe å kjører, men det
gjenstår mye arbeid.
Høres vanvittig imponerende ut, men jeg har nok dessverre ikke kompetanse til å programmere det dere trenger. Vil uansett bare ønske dere lykke til
Lynx, det tror jeg du kan!
Takk for tilliten
Hva slags utseende har dere tenkt dere? "typisk søkeside"?
Ja, typisk søke side. Det er viktig at det ser bra ut, men er enkelt. Folk er der for å søke, ikke for å bli distrahert av alt mulig annet.

I tillegg har vi også en admin del for "pay per click" annonsører og affiliatene som også må ha et design.
[Offtopic]

Kan ikke folk heller post de som har mulighet til å bidra/ hjelpe til med noe, i stedet for at 50 stk poster at de ikke kan.

[/Offtopic]
Vis hele sitatet...
Ganske minimalistisk altså... hmm... jaja, jeg er enig i valget. Funksjonalitet må nesten gå foran for denne typen side... Litt kjipt siden jeg er mer maksimalistisk av meg, men egentlig kunne tenkt meg å hjelpe til Lykke til anyways, ser ut som et bra prosjekt!
Ut fra mailen jeg får ser det ut som om noen har misforstått litt, vi trenger både en programmerer og en designer (altså to til sammen), ikke en som kan begge dele. Dyktige programmerer er ofte dårlige designere, så en dedikert person til design er ideelt.

Så ja kan du design, men ikke tror du kan programmere så er det greit, da programmerere vil programmere og designerene designe, ikke omvent (ideelt sett).
Sist endret av Kongen; 17. februar 2003 kl. 22:48.
Bare for å gi et lite innspill, det kunne vært i en slit situasjon man kunne ha fått bruk for en veltrent AI til å skjønne hva søkeren egentlig er ute etter, i sammenheng med å skille ord som "bil" og "bilder". Typen AI dere kunne trenge for en slik oppgave er et såkalt Neuron Nettverk.. Det er en slik jeg har laget for å simulere pilotene i flysimmen min. Neuron nettverk er hyppig bruk i oppgaver som skriftgjenkjenning, lånskalkulatorere(og ellers innen bank systemer) og diverse. Det er egentlig bare fantasien som setter grenser.
Takk for inspillet, jeg har tenkt litt på AI, men tror det blir for vanskelig å lage en god nok en. Kanskje nor jeg systemet er oppe å kjører og jeg har litt ledig tid.

Jeg har kommet et stykke på vei med en Norsk versjon av Porter Stemming. Dette er en algoritme som tar inn et ord og gir deg et stemt ord tilbake, så lagrer du det stemte ordet i databasen, og men stemer så alle ord før man slår de opp i databasen.

Se her for min eksperimentelle versjon: http://www.boitho.com/cgi-bin/porter_test.cgi

eksempel på ord man kan prøve; tester, biler, evigheten, steming
Sist endret av Kongen; 18. februar 2003 kl. 01:28.
Kjøp opp fast, eller google... Eller innvester i noen 100-tusner av programmeringstimer pluss noen milioner i serverpark + andre ting som enorme linjer med mange tera i overføring i måneden... then you'll be in bussiness... send meg 5% av alle pengene dere bruker på dett så skal jeg være (en veldig rik) konsulent for dere.

Scha
Opprinnelig postet av Kongen
Gjerne en
jente, fordi jenter er flinke på design.
Vis hele sitatet...
*host* miaaa
hehe, da får du ihvertfall et ganske uvanlig søkeside... tror aldri jeg har sett en svart søkeside?
Kongen, den eksprimentelle algotrimen:

Søk: Musiker
Resultat: Musik

Hvis man søker etter en profesjonell musiker, er ikke det det samme som mp3-musikk!

Er det fortsatt alpha 0,4 eller?
Jeg kan vel gjøre litt der, hva får man for oppdraget? aksjer?

"Det ble tidlig klart at vi trengte en vanlig søkemotor i bunnen slik at
vi hadde noen resultater å vise brukerene inntil vi fikk mange
annonsører, og brukere som søkte på mindre kommersielle emner. Bygging
av en vanlig søkemotor byr på en del problemer forbundet med at vi
jobber med store datamengder, så for eksempel bruk av en standard
databasen som MySQL var utelokket da ytelsen faller dramatisk nor
tabellene blir større en tilgjengelig minne (ram). I steden lagde jeg
mitt egent database system med fil hashing. Denne metoden er ideell da
det ikke er noen ytelsesforskjell om vi har en database på 50 MB eller
50 GB."

- dette blir ikke riktig når MySQL 4.0 slippes, kritikken av 4.0 er at den kan hamle opp med Oracle.
Sist endret av fxxked; 20. februar 2003 kl. 20:54.
Opprinnelig postet av fxxked
Jeg kan vel gjøre litt der, hva får man for oppdraget? aksjer?
Vis hele sitatet...
En retferdig andel av et eventuelt utbytte. Mail meg på


Opprinnelig postet av fxxked
- dette blir ikke riktig når MySQL 4.0 slippes, kritikken av 4.0 er at den kan hamle opp med Oracle.
Vis hele sitatet...
Jeg har også hørt det, men en standard database løsning vil aldri være raskest for en bestemt oppgave, da den ikke bare er optimalisert for denne bestemte oppgaven, men for generelle oppgaver.

Vårt system trener bare å være raskt til søking, da vi ikke gjør noen innsetning eller sletting, men bygger nye søke hasher for hver forandring. Dette gjør det ekstremt raskt å søke, men innsetning tar tid. Mens et vanlig database system vil brukt lenger tid på å søke, men insetting å sletting ville været mye enklere.

Nå har vi en ganske grei API i bunnen, så vi kan lett bytte mellom å bruke vårt egent system, MySQL, Oraqle, hva som helst, ut fra hva som passer best.
▼ ... noen uker senere ... ▼
Trådstarter
Vi nærmer oss nå slutten på prosjektet, og har begynt å crawle weben. Så hvis noen har noen norske sider de vil ha inn, og ikke har hatt besøk av spyderen vår enda (user agent: boitho.com-robot) så mail dem til meg på så skal jeg legge de til.