Recenzje naukowe (peer-review) stanowią fundament oceny wartości pracy naukowej. Są podstawą dla akceptacji bądź odrzucenia artykułów naukowych i projektów grantowych. W sposób pośredni lub bezpośredni wywierają wpływ nie tylko na decyzje o podziale środków na badania, ale mają podstawowe znaczenie dla pozycji badacza w świecie naukowym, są narzędziem, który jest używane przez zarządzających środkami na badania naukowe. Rozprawa ma charakter empiryczny. Głównym jej celem jest analiza ograniczeń procesu recenzowania naukowego i empiryczne przetestowanie dziewięciu hipotez wyprowadzonych z przeglądu literatury. Praca składa się z 3 części. W części pierwszej, teoretycznej, przedstawiono: poznawczy model procesu oceniania i przeanalizowano czynniki mogące zaburzać przebieg tego procesu, takie jak indywidualny styl oceniania recenzenta (poziom surowości, niechęć do różnicowania ocen dla różnych obiektów), efekt halo (brak różnicowania ocen na cząstkowych wymiarach oceny) i efekt kolejności pojawiający się przy ocenie serii obiektów oraz wpływ przeciążenia informacyjnego. Część empiryczna pracy składa się z opisu badań jakościowych (pogłębione wywiady z 35 doświadczonymi recenzentami) i ilościowych. Na dane ilościowe składają się analizy danych zastanych (oceny 673 abstraktów konkurujących o granty konferencyjne) i przeprowadzone przez Autorkę 4 badania eksperymentalne, w których uczestniczyło w sumie 912 osób. Część badań została zrealizowana w ramach projektu naukowego NCN pn. „NCN Preludium nr UMO 2016/21/N/HS4/00528 nt.: „Recenzowanie w czasach zalewu (overflow), konsekwencje dla zarzadzania środkami na badania naukowe”, którego jestem kierownikiem. Logika przedstawionego w rozprawie wywodu została wsparta realizacją 4 zadań badawczych. Realizując zadanie 1. najpierw na 5 różnych zbiorach danych potwierdzono występowanie różnic między recenzentami w zakresie średniej i wariancji wystawianych ocen. Wyniki są jednoznaczne: recenzenci różnią się znacznie stylem oceniania - jedni są mniej a drudzy bardziej surowi, co oznacza, że czynnik losowy związany z wyborem recenzenta wpływa istotnie na przyznanie grantu czy publikację tekstu. Fakt, że zazwyczaj pracę recenzują co najmniej dwie osoby nie zabezpiecza przed „wylosowaniem” dwóch surowych lub dwóch łagodnych recenzentów. Należałoby więc rekomendować, aby konkurujące między sobą projekty, teksty naukowe były oceniane przez ten sam zestaw recenzentów. W takim schemacie oceny „surowy” recenzent będzie w tym samym stopniu zaniżał oceny wszystkich konkurujących między sobą uczestników. Ale ocena serii przez tych samych recenzentów nie rozwiązuje wszystkich problemów, ponieważ pojawia się stwierdzany w wielu badaniach efekt kolejności - szczególnie w sytuacji, w której recenzent nie może wracać do wcześniej ocenionych obiektów. Pierwszym krokiem było sprawdzenie na dwóch zbiorach analizowanych danych występowania efektu kolejności. Pierwsza analiza (test hipotezy la) została przeprowadzona na zbiorze ocen 673 abstraktów konkurujących o przyznanie grantów pokrywających koszty udziału w konferencji międzynarodowej. Abstrakty oceniane w pierwszej piętnastce serii (każdy recenzent oceniał średnio 61 abstraktów) miały istotnie niższą średnią niż te oceniane później. Hipoteza la „Abstrakty konferencyjne oceniane na początku otrzymują niższe oceny niż pozostałe abstrakty” została potwierdzona. W następnym kroku w specjalnie zaplanowanym badaniu eksperymentalnym przetestowano dwie hipotezy i wykazano, że wpływ kolejności na ocenę zależy od jakości obiektu: słabe obiekty zyskują, gdy oceniane na początku, dobre tracą. Wiąże się to z unikaniem skrajnych ocen na początku oceniania serii (potwierdzone zostały hipotezy lb, lc i ld). Kolejnym wyzwaniem badawczym było sprawdzenie czy wprowadzenie PRZERW może wyeliminować efekt kolejności w ocenianiu serii obiektów. Próba eliminacji tego efektu przez wprowadzenie w jednej z grup przerwy (w czasie której wcielający się w rolę recenzentów uczestnicy badań wykonywali dodatkowe zadanie polegające na ocenie estetycznej logotypów) zakończyła się porażką, więc hipoteza le nie zyskała poparcia empirycznego. Zadanie badawcze 2. związane było z próbą eliminacji w ocenach recenzentów efektu HALO przejawiającego się w bardzo wysokim skorelowaniu ocen cząstkowych [pozytywna/negatywna ocena przejawia się w pozytywnych/negatywnych ocenach na wszystkich wymiarach]. Trzeba pamiętać, że od recenzentów wymaga się nie tylko decyzji akceptującej lub odrzucającej dany projekt/publikację, ale także oceny obiektów na wielu wymiarach/kryteriach cząstkowych oceny. U podstaw tej praktyki leży przyjmowane milcząco założenie, że istnienie ocen cząstkowych zobiektywizuje oceny, a obiekty będą opisywane w postaci wielowymiarowych profili. W praktyce, jeśli nawet wymiarom przypisuje się zróżnicowane wagi (patrz np. ocena 673 abstraktów) to decyzje podejmuje się na podstawie średniej. Konieczność dokonywania wielu ocen cząstkowych jest natomiast dużym obciążeniem poznawczym dla oceniającego - nic więc dziwnego, że w badaniach wykazuje się niezmiennie efekt HALO, który został też zreplikowany w rozprawie doktorskiej. W następnym kroku postawiono hipotezę, że na siłę tego efektu może wpływać sposób oceniania serii obiektów, którą można przeprowadzić w sposób w OBIEKTOWY (najpierw obiekt 1 na wszystkich wymiarach, potem obiekt 2...) lub WYMIAROWY (najpierw wszystkie obiekty na wymiarze 1..., potem wszystkie obiekty na wymiarze 2...). W tym celu przeprowadzono specjalnie zaprojektowane badanie eksperymentalne, które potwierdziło hipotezę (H2) mówiącą, że ocenianie wymiarowe w odróżnieniu od oceniania obiektowego zmniejszy siłę efektu HALO. Trzecie zadanie badawcze dotyczyło wpływu przeciążenia poznawczego, któremu podlegają wszyscy pracownicy nauki borykający się z niekontrolowanym przyrostem informacji określanym w literaturze różnymi terminami m.in.: przeciążenie informacyjne information overload zalew informacji (flood of information), smog informacyjny (data smog) czy overflow. Jednym z głównych źródeł przeciążenia są publikacje naukowe, których liczba rośnie w zastraszającym tempie - rocznie publikuje się około 15000 międzynarodowych czasopism naukowych. Zwiększeniu uległa nie tylko liczba publikacji i istniejących czasopism, ale także wzrosła objętość i złożoność publikacji, w tym liczba cytowań. Odnotowano wzrost liczby cytowanych publikacji we wszystkich dyscyplinach naukowych, w niektórych czasopismach aż ośmiokrotnie. Analiza przeprowadzona na prawie tysiącu artykułów z siedmiu czasopism pokazała, że coraz więcej autorów używa dwóch lub więcej odwołań, aby uzasadnić ten sam argument, zwiększając w ten sposób całkowitą objętość publikacji. Wzrost ten nie dziwi, albowiem zwiększenie liczby przypisów w artykule jest podawane jako jedna ze strategii zwiększających szanse publikacji. Przedmiotem badania eksperymentalnego w zadaniu 3 było sprawdzenie konsekwencji stosowania dwóch odmiennych standardów cytowań: w środku tekstu (np.: APA, Harvard, MLA) vs na dole strony (np. Chicago/Turabian, Oxford). Założono, że przypisy umieszczane w nawiasach w środku tekstu, często dzielące zdanie na dwie lub więcej części, niepotrzebnie przeciążają umysł czytającego utrudniając syntezę sensu zdania. W tym zadaniu w specjalnie zaplanowanych dwóch eksperymentach przetestowano dwie hipotezy: (H3a) Przypisy środkowe powodują większe rozproszenie uwagi „recenzentów” niż przypisy dolne; (H3b) Na ocenę projektu wpływa stan psychoenergetyczny „recenzenta”: podwyższa ją silniejsza motywacja, obniża: stopień zmęczenia i stopień rozproszenia. Obie hipotezy uzyskały poparcie empiryczne, choć warto dodać, że należałoby to badanie zreplikować na prawdziwych recenzentach, a nie tylko badanych wczuwających się w ich rolę. W rozprawie zamieszczono także efekty czwartego zadania badawczego, które polegało na przeprowadzeniu pogłębionych wywiadów z 35 doświadczonymi recenzentami (w tym 15 z wiodących uniwersytetów zachodnich) z różnych dyscyplin naukowych. Wszystkie wywiady zostały poddane transkrypcji (w sumie 170 stron tekstu) i zostały przedstawione syntetycznie w części trzeciej. Wywiady pokazały m.in., przyzwyczajenie do standardu cytowań. Większość z recenzentów, w dyscyplinach z obowiązującym środkowym standardem, nie uwierzy w wyniki badań eksperymentalnych sugerujących, że prowadzi on do niepotrzebnego przeciążenia. Nie można wykluczyć, że ich umysły zautomatyzowały ignorowanie zawartości środkowych nawiasów. Rozprawa się kończy się trzema rekomendacjami dla zarządzających regulacjami dotyczącymi procesu recenzji. Ze względu na powszechnie występujące różnice w stopniu surowości recenzentów należy albo: (1) zacząć od procesu kalibracji poprzez zlecenie recenzentom oceny projektów/publikacji o ustalonej wcześniej wartości i wykluczyć z procesu recenzowania tych, których oceny znacząco odbiegają (in plus lub in minus) od ustalonej wcześniej wartości, albo (2) zlecać ocenę wszystkich konkurujących ze sobą projektów/publikacji do danego numeru czasopisma temu samemu np. trójosobowemu zespołowi recenzentów wymuszając na nich ocenianie wymiarowe, a nie obiektowe i płacąc za wykonaną prace, co znacznie skróciłoby czas recenzowania. Przy ocenie poszczególnych wymiarów cząstkowych należy rotować kolejność ocenianych obiektów, aby uniknąć efektu kolejności. Trzeba też pamiętać, że mnożenie kryteriów cząstkowych niepotrzebnie przeciąża recenzentów, którzy zaczynają kierować się zasadą zgodności ewaluatywnej (dobre lub złe oceny na wszystkich wymiarach). Choć nie zostało to zbadane w tym programie można przewidywać, że warto minimalizować liczbę kryteriów cząstkowych.
Peer review is the foundation for the assessment of the value of a scientific work. It is the basis for accepting or rejecting scientific articles and grant proposals. In an indirect or direct way, peer review, not only influences the decisions regarding the distribution of funds for research but is also fundamental for careers of researchers in the scientific community. It is a tool that is used by managers of research funds. The work is empirical in nature. The main goal of the thesis is the analysis of the limitations of the peer review process and empirically testing nine hypotheses derived from the literature review. The work is structured into three parts. The first, theoretical, part consists of a cognitive model of reviewing and the analysis of the factors that could hinder the flow of this process. This includes individual response style (leniency/severity level, differentiating dimensions), halo effect (lack of differentiation of grades on the partial dimensions of the assessment); serial position effect that arise when evaluating series of objects, and the influence of the information overload. The second, empirical part consists of description of qualitative (in-depth interviews with 35 experienced reviewers) and quantitative studies. Quantitative studies consist of the analyses of existing data (assessments of 673 abstracts competing for conference grants) and four experimental studies carried out by the Author, conducted on a total of N=912 participants. Part of the research was carried out as part of the NCN scientific project entitled "NCN Preludium nr UMO-2016/21/N/HS4/00528 on:" Review in times of flood (overflow), consequences for the management of funds for research ". The logic of the argument presented in the dissertation was supported by the implementation of 4 research tasks. In task 1, differences between reviewers in terms of the average and variance of grades issued were confirmed in 5 different data set. The results were unambiguous: reviewers differ significantly in their response style - some are less and others more severe, which means that the random factor associated with the choice of the reviewer significantly affects the assessment of the grant proposal or publication of the text. The fact that usually at least two people review the work does not protect against "drawing" two harsh or two lenient reviewers. Therefore, it is recommended that competing projects and scientific texts should be evaluated by the same set of reviewers. In such an evaluation scheme, the "strict" reviewer will be equally harsh to all competing participants. But using same reviewers do not solve all the problems, of the serial position effect - especially in a situation where the reviewer cannot return to previously assessed objects. The first step was to check the occurrence of the serial position effect on the two sets of analyzed data. The first analysis (testing hypothesis la) was carried out on a set of assessments of 673 abstracts competing for grants covering the costs of participation in an international conference. Abstracts rated among the first fifteen (each reviewer rated an average of 61 abstracts) had a significantly lower average, than those evaluated later. Hypothesis la "Conference abstracts rated at the beginning receive lower grades than other abstracts" has been confirmed. In the next step, two hypotheses were tested in an experimental study showing that the influence of the serial position effect on the assessment depends on the quality of the object: weak objects gain when are evaluated at the beginning of the series, but good lose. This is related to the avoidance of extreme assessments at the beginning of the series evaluation (the hypotheses lb, lc and Id have been confirmed). The aim of the next study was to examine if the introduction of BREAK can eliminate the serial position effect. An attempt to eliminate this effect by introducing a break in one of the groups (during which the participants of the research performed an additional task of assessing the aesthetics of logotypes) ended in failure, so hypothesis le did not gain empirical support. Research task 2 was related to the attempt to eliminate the HALO effect in reviewers' evaluations. HALO effect manifests itself in a very high correlation of partial grades [positive / negative assessment is manifested in positive / negative assessments on all dimensions]. It should be noted that reviewers are required, not only to accept or reject a given project / publication, but also to assess the objects on multiple dimensions / partial criteria of the assessment. At the basis of this practice lies a tacit assumption that the existence of partial evaluations will objectify the assessments and objects will be described in the form of multidimensional profiles. In practice, even if the dimensions are assigned different weights (see, for example, the assessment of 673 abstracts), decisions are made on the basis of the average. The necessity of making many partial assessments is, on the other hand, a high cognitive burden for the evaluator - it is no wonder that the HALO effect is invariably shown in the literature and has also replicated in the doctoral dissertation. In the next step, a hypothesis was formulated that the strength of HALO effect may be influenced by the way of evaluating a series of objects: OBJECT evaluation (when evaluating object 1 on all dimensions, then object 2...0r DIMENSION evaluation (when evaluating objects on dimension 1, then all objects on dimension 2...). For this purpose, a specially designed experimental study was carried out, which confirmed the hypothesis (H2) that dimensional assessment, in contrast to one-object assessment, will reduce the strength of the HALO effect. The third research task concerned the impact of cognitive overload, that many academics are prone to due to the uncontrolled increase of information. Cognitive load is defined in the literature by various terms including: information overload, flood of information, information smog (data smog) or overflow. One of the main sources of overload are scientific publications, the number of which is growing at an alarming rate - around 15,000 international scientific journals are published annually. Not only the number of publications and existing journals increased, but also the volume and complexity of publications increased, including the number of citations. There has been an increase in the number of cited publications in all scientific disciplines, up to eight times in some journals. An analysis carried out on almost a thousand articles from seven journals has shown that more and more authors use two or more references to justify the same argument, thus increasing the total volume of publications. This increase is not surprising, because the increase in the number of footnotes in the article is given as one of the strategies that increase the chances of publication. The subject of the experimental study in task 3 was to examine the consequences of using two different citation standards: in the middle of the text (eg АРА, Harvard, MLA) vs at footnote (e.g. Chicago / Turabian, Oxford). It was assumed that footnotes placed in brackets in the middle of the text, often dividing the sentence into two or more parts, unnecessarily overload the reader's mind making it difficult to synthesize the meaning of the sentence. Two hypotheses were tested in this task in experiments: (H3a) The middle citations cause greater distraction of the attention of the "reviewers" than the footnotes; (H3b) The evaluation of the project is influencedby the psychoenergetic state of the “reviewer”: it is increased by a stronger motivation, it decreases with: a higher degree of fatigue and a higher degree of distraction. Both hypotheses have gained empirical support, although it is worth adding that this research shouldbe replicated on real reviewers, and not only respondents who took on their role. The dissertation also included the results of the fourth research task, which involved conducting in-depth interviews with 35 experienced reviewers (including 15 from leading Western universities) from various scientific disciplines. All interviews have been transcribed (170 pages total of text) and are presented synthetically in Part XX. Interviews indicated, among other things, the citation standard to which they are used to. Most of the reviewers, in disciplines using the middle standard, would not believe the results of experimental studies suggesting that it leads to unnecessary overload. It can not be ruled out that their minds automatically ignored the contents of the middle brackets. The dissertation ends with three recommendations for those who manage of regulations regarding the review process. Due to the commonly occurring differences in the severity of reviewers, either (1) start with the calibration process by ordering reviewers to evaluate projects/publications with a pre-determined value and exclude from the review process those whose assessments diverge significantly (in plus or in minus) from a pre-determined value, or (2) order the assessment of all competing pr oj ects/publications in a given issue of the journal to the same, for example, a three- person team of reviewers, forcing them to assess dimensional rather than object- oriented and paying for the work, which would significantly shorten the reviewing time. When evaluating individual partial dimensions, the order of the assessed objects shouldbe rotated to avoid the order effect. It should also be remembered that multiplying partial criteria unnecessarily overloads reviewers who start to follow the principle of evaluative conformity (good or bad grades in all dimensions). Although it has not been examined in this research program, it can be anticipated that it is worth minimizing the number of partial criteria.