Nyheder
For alle nyheder, hvad end de måtte omhandle.
Regler
1. Brug artiklens titel
Titlen på indlæg skal være titlen på nyhedsartiklen der linkes til. Du må dog gerne oversætte titlen hvis den ikke er på dansk, så længe oversættelsen er retvisende. En alternativ titel (fx i tilfælde af clickbait) eller vigtig supplerende information kan angives i kantede parenteser. Fx: "Clickbait titel [Beskrivende titel]". Dette sikrer at titlen på artiklen ikke er misvisende.
2. Brug ikke tekstfeltet ("body")
Link udelukkende til artiklen og brug ikke tekstfeltet ("body" på engelsk). Hvis du vil tilføje noget, så skriv en kommentar. Dette sikrer at debatten foregår fra et neutralt synspunkt der tager udgangspunkt i artiklen, og ikke en bestemt vinkling skrevet i tekstfeltet. Undtagelse: Det er tilladt at dele et referat af en artikel bag betalingsvæg i tekstfeltet.
3. Kun nye artikler
Artikler skal være mindre end en uge gamle. Dette sikrer at artikler faktisk er nyheder.
4. Debat-indlæg og andet skal markeres
Det er tilladt i et begrænset omfang at indlægge artikler der ikke som sådan er nyhedsartikler og ikke er skrevet af avisens ansatte (fx debat-indlæg eller læserbreve), men sådanne artikler skal markeres med [Debat] el. lign. mærkat i titlen af indlægget inden titlen på artiklen. Dette sikrer at brugere er klar over den potentielle højere bias der kommer fra debat-indlæg og sikrer at debat-indlæg ikke bruges til at skubbe en agenda.
Husk også at følge Feddit.dks generelle regler.
view the rest of the comments
Sprogmodellen behøver ikke nødvendigvis at blive trænet igen. Den kan udbygges med et værktøj som Retrieval Augmented Generation (RAG), hvor den henter ekstern data ind, kort fortalt.
Så kan man nøjes med at holde sine alm. filer opdateret, uden at skulle fin-tune eller gentræne sprogmodellen.
Ja, hav altid et human-in-the-loop.
Den skal jo også fjerne de data der ikke passer mere. Det ved jeg ikke om RAG kan.
Jo da. 🙂 Lidt forenklet:
Inde bagved er det i virkeligheden mere kompliceret alt efter hvilket setup, man har - noget med data, der omdannes til vektorer og gemmes i flere dimensioner: https://www.3blue1brown.com/lessons/mlp
Jeg har set videoerne allerede. Det jeg betvivler er bare om man kun kan tilføje flere af disse vektorer så der er flere kombinationer man kan lave, hvilket giver flere mulige outputs, eller om man også kan undgå at de forældede data bliver brugt. Det er jo ikke sådan at hver vektor gemmer hvert sit datapunkt, men i stedet er hvert datapunkt man har trænet på fordelt ud over alle vektorerne. Der er forskel på at tilføje nye informationer og at skulle fjerne gamle som er blandet sammen med alt det andet.
Det hjælper jo ikke hvis LLM'en kan komme frem til tekst fra både det gamle og det nye datablad når det gamle ikke er gyldigt længere.